15/02/2014

NHỮNG YẾU TỐ ẢNH HƯỞNG TỚI SEARCH ENGINE

Tại MozCon, Matt Peters đã trình bày kết quả các nghiên cứu yếu tố xếp hạng 2013 từ Moz. Trong bài viết này Matt Peters sẽ làm rõ các yếu tố và theo nó với một báo cáo đầy đủ.
- Yếu tố Page Authority cao hơn so với bất kỳ số liệu khác đã được đo.

- Mạng xã hội, đặc biệt là Google +1 và Facebook share có liên quan chặt chẽ.

- Mặc dù ghét Penguin, nhưng anchor text vẫn là mạnh mẽ hơn bao giờ hết.

- Mối tương quan mới được xác định cho schema.org và dữ liệu có cấu trúc.

- Nhiều dữ liệu được thu thập trên các external link, keywords và trang liên quan.
Khảo sát

Trong năm nay Cyrus Shepard và Matt Brown tổ chức một cuộc khảo sát với 120 SEOer. Trong một vài tuần tới, họ sẽ phát hành số liệu điều tra đầy đủ.


Cuộc khảo sát đưa ra nhiều câu hỏi để đánh giá các yếu tố khác nhau trên thang điểm từ 1- 10 theo tầm quan trọng mà họ cho rằng nó quan trọng trong thuật toán xếp hạng của Google. Các yếu tố đánh giá cao nhất trong cuộc khảo sát có điểm số từ 7 – 8, các yếu tố không quan trọng thường từ 4 -6
Mối tương quan

Để tính toán các mối tương quan, chúng tôi làm theo các quá trình tương tự năm 2011. Chúng tôi bắt đầu với một lượng lớn từ khóa từ Google AdWords (14.000 + năm nay) trải đều trên tất cả các lĩnh vực. Sau đó, chúng tôi thu thập trong 50 kết quả tìm kiếm hàng đầu từ Google-US một cách phi các thể hóa. Tất cả các SERPs được thu thập vào đầu tháng Sáu, sau khi cập nhật Penguin 2.0.

Đối với mỗi kết quả tìm kiếm, chúng tôi chiết xuất tất cả các yếu tố chúng tôi muốn phân tích và cuối cùng là tính toán các tương quan Spearman trung bình trên toàn bộ tập dữ liệu. Ngoại trừ một số chi tiết mà tôi sẽ thảo luận dưới đây, đây là quá trình chung mà cả hai Searchmetrics và Netmark gần đây được sử dụng trong nghiên cứu xuất sắc của họ. Jerry Feng và Mike O’Leary trong nhóm khoa học dữ liệu ở Moz làm việc chăm chỉ để trích xuất nhiều tính năng này.

Khi giải thích các kết quả tương quan, điều quan trọng là phải nhớ rằng sự tương quan không chứng minh quan hệ nhân quả.

Rand đã có một bài đăng blogspot  giải thích tầm quan trọng của kiểu phân tích này và làm thế nào để giải thích những nghiên cứu này. Như chúng tôi xem xét các kết quả dưới đây, tôi sẽ gọi ra những nơi có mối tương quan cao mà có thể không chỉ ra nguyên nhân.
Các dữ liệu

Đầu tiên là Mozscape link

Mối tương quan: Page level

Correlations: Page level

Mối tương quan: domain level


Page Authority là một mô hình nghiên cứu ở bên trong chỉ số Mozscape của chúng tôi có thể dự đoán khả năng xếp hạng từ các liên kết và nó là yếu tố tương quan cao nhất trong nghiên cứu của chúng tôi. Như trong năm 2011, số liệu mà nắm bắt sự đa dạng của các nguồn liên kết (C-blocks, IPs, domains) cũng có mối tương quan cao. Tại domain/sub-domain, tương quan sub-domain là lớn hơn sau đó là mối tương quan domain.

Trong cuộc khảo sát, các SEOer cũng nghĩ rằng liên kết là rất quan trọng:

Khảo sát: Links

liên kết link
Anchor text

Trong 2 năm qua, chúng tôi đã thấy Google triệt hạ tối ưu anchor text quá mức. Mặc dù vậy, mối tương quan anchor text cho phù hợp với cả hai partial và exact match cũng khá lớn trong bộ dữ liệu của chúng tôi:

partial and exact match

Điều thú vị là cuộc khảo sát các SEOer cho rằng một phân phối anchor text (mọt kết hợp tốt của branded và non-branded) là quan trọng hơn số lượng liên kết.

Các mối liên quan anchor text là một trong những sự khác biệt quan trọng nhất giữa các kết quả của chúng tôi và nghiên cứu Searchmetrics. Chúng tôi không biết chính xác lý do trường hợp này, nhưng nghi ngờ nó là vì chúng tôi bao gồm các truy vấn định hướng trong khi Searchmetrics loại bỏ chúng từ dữ liệu của nó. Nhiều truy vấn định hướng mang nhãn hiệu, và sẽ có rất nhiều anchor text phù hợp với điều kiện tìm kiếm thương hiệu, vì vậy điều này có thể cho sự khác biệt.
On-page

Các keyword vẫn còn quan trọng?

Chúng tôi đã đo mối quan hệ giữa các từ khóa và các tài liệu cả hai có điểm số TF-IDF và điểm mô hình ngôn ngữ và thấy rằng các thẻ tiêu đề, body của HTML, thẻ meta description và các thẻ H1 đều có tương quan tương đối cao:

Mối tương quan: On-page

On-page

Các SEOer cũng đồng ý rằng các keyword ở trong thẻ title và trên trang là những yếu tố quan trọng:

Khảo sát: On-page

Survey On-page

Chúng tôi cũng tính toán một số mối tương quan trên trang bổ sung để kiểm tra xem đánh dấu cấu trúc (schema.org hoặc Google+ author/publisher) có bất kỳ mối quan hệ với bảng xếp hạng. Tất cả những mối tương quan gần bằng không, vì vậy chúng tôi kết luận rằng họ không được sử dụng như là tín hiệu xếp hạng.

Tên miền liên quan

Khả năng xếp hạng các lĩnh vực kết hợp chính xác và một phần (EMD/PMD) đã được tranh luận rất nhiều bởi các SEOer gần đây, và nó xuất hiện Google vẫn còn khả năng điều chỉnh xếp hạng của họ. Trong dữ liệu của chúng tôi thu thập được vào đầu tháng sáu (trước khi cập nhật 25/06), chúng tôi thấy EMD có mối tương quan tương đối cao 0.17 (0.20 nếu EMD cũng là một .com), chỉ là về ngang bằng với giá trị từ năm 2011 nghiên cứu của chúng tôi:

EMD/PMD

Điều này là đáng ngạc nhiên, do dữ liệu MozCast cho thấy EMD tỷ lệ phần trăm được giảm, vì vậy chúng tôi quyết định thu thập thực tế, chúng tôi thấy rằng phần trăm EMD đã giảm trong năm qua hoặc như vậy (đường màu xanh):

EMD percentage

Tuy nhiên, chúng ta thấy một mô hình trong các mối tương quan EMD (đường màu đỏ), nó giảm vào tháng 8 năm ngoái, sau đó tăng trở lại trong vài tháng gần đây. Chúng tôi cho rằng sự giảm trong tháng 8 năm ngoái để EMD cập nhật của Google (theo công bố của Matt Cutts). Sự gia tăng trong mối tương quan giữa tháng 3 và tháng 6 nói rằng EMDS hiện tại vẫn được xếp hạng tổng thể cao hơn trong SERPs, mặc dù nó là ít phổ biến. Điều này có thể được Google loại bỏ EMDS chất lượng thấp hơn?

Netmark gần đây tính toán mối tương quan là 0,43 cho EMD, và đó là mối tương quan tổng cao nhất trong bộ dữ liệu của họ. Đây là một sự khác biệt lớn so với giá trị của chúng ta 0,17. Tuy nhiên, họ đã sử dụng sự tương quan cấp bậc biserial thay vì tương quan Spearman cho EMD, cho rằng nó là thích hợp hơn để sử dụng cho các giá trị nhị phân (nếu họ sử dụng sự tương quan Spearman họ nhận được 0,15 cho sự tương quan EMD). Họ đúng, tương quan cấp bậc biserial được ưa thích hơn Spearman trong trường hợp này. Tuy nhiên, kể từ thứ hạng biserial chỉ là tương quan Pearson giữa các biến, chúng tôi cảm thấy đó là một chút của một so sánh táo với cam để trình bày cả hai Spearman và cấp bậc biserial cạnh nhau. Thay vào đó, chúng tôi sử dụng cho tất cả các yếu tố Spearman.
Social

Như trong năm 2011, tín hiệu mạng xã hội là một số yếu tố tương quan cao nhất của chúng tôi, với Google+ vượt qua cả Facebook và Twitter:

Social

Theo các SEOer, không cho rằng các tín hiệu xã hội là rất quan trọng trong thuật toán tổng thể:

social signal

Đây là một trong những nơi mà các mối tương quan có thể giải thích được bởi các yếu tố khác như liên kết, và có thể không có nguyên nhân trực tiếp.

Trở lại vào năm 2011, sau khi chúng tôi công bố kết quả mạng xã hội ban đầu của chúng tôi, tôi thấy làm thế nào Facebook mối tương quan có thể được giải thích chủ yếu là do các liên kết. Chúng tôi hy vọng Google thu thập nội dung Google+ của mình, và các liên kết trên Google+ được theo sau để họ vượt qua nước liên kết. Google cũng thu thập và lập chỉ mục các trang công khai trên Facebook và Twitter.
Dự đoán công cụ tìm kiếm

Theo khảo sát của chúng tôi, đây là cách thuật toán tổng thể của Google:

Google overall algorithm

Chúng ta thấy:

- Liên kết vẫn còn được coi là phần quan trọng nhất của thuật toán (khoảng 40%).
- Sử dụng Keyword trên trang vẫn là cơ bản, và khác hơn là liên kết được cho là yếu tố quan trọng nhất.
- Các SEOer không nghĩ rằng yếu tố mạng xã hội là quan trọng trong thuật toán năm 2013 (chỉ có 7%), trái ngược với các mối tương quan cao.

Nhìn vào tương lai, các SEOer thấy một sự thay đổi từ yếu tố xếp hạng truyền thống (anchor text, lĩnh vực liên kết, vv) để phân tích sâu hơn về một trang web đã nhận thức giá trị cho users, authorship, structured data, and social:

ranking factors
Chia sẻ bài viết :
Tag: ,