Nghiên cứu về việc Google thiên vị các website tin tức

Việc Google thiên vị các thuật toán không còn quá xa lạ với người dùng, vì đây cũng không phải lần đầu tiên Google làm vậy. Trước đây, Google từng thao túng kết quả tìm kiếm trong cuộc bầu cử tổng thống Donald Trump và bà Hillary Clinton khiến cho ông Trump phải phẫn nộ và gắn hashtag “Google thiên vị”. Trong bài viết này, chúng tôi đặc biệt sẽ làm rõ cho các bạn biết liệu Google có thiên vị các website tin tức không?

Google thiên vị

Google thiên vị

Gần đây, Giám đốc điều hành Google Sundar Pichai được gọi để làm chứng trước Quốc hội về việc Google thiên vị các thuật toán. Đây không phải lần đầu tiên Google bị buộc tội thiên vị và dường như không phải lần cuối cùng. Google cáo buộc rằng không có sự thiên vị nào, tuy nhiên nhiều Đảng Bảo thủ cho rằng Google có thành kiến với họ.

Với kiến thức chuyên môn của chúng tôi về SEO và lượng dữ liệu khổng lồ của Ahrefs, chúng tôi muốn xem liệu có thể xác định bất kỳ sự thiên vị nào từ Google hay không bằng cách xem xét dữ liệu các website tin tức từ đảng bảo thủ và đảng tự do. Nếu bạn không quen thuộc với Ahrefs, chúng tôi là một trong những công cụ SEO hàng đầu với dữ liệu lớn hiệu quả về web.

  • Phương pháp luận
  • Các kết quả

1. Phương pháp luận

Google thực hiện hàng trăm lần điều chỉnh các thuật toán xếp hạng mỗi năm. Hầu hết, những thứ này không được chú ý vì chúng nhỏ, nhưng xuất hiện thường xuyên. Gần đây, có một bản cập nhật “core” lớn ảnh hưởng đến một tỷ lệ kết quả tìm kiếm. Khi Google cho biết ngày của những cập nhật này, chúng tôi nhận thấy có thể tìm kiếm sự thiên vị bằng cách nghiên cứu lưu lượng truy cập organic đến các trang tin tức theo phe đảng Tự do và đảng Bảo thủ nổi tiếng trước và sau những cập nhật này.

Ví dụ: đây là lưu lượng tìm kiếm organic ước tính đến Fox News kể từ năm 2015. Mỗi dòng đại diện cho Google Core Update:

Google Core Update được phủ lên biểu đồ lưu lượng truy cập cho Fox News

Google Core Update được phủ lên biểu đồ lưu lượng truy cập cho Fox News

Các trang tin tức của đảng bảo thủ

  • New York Post
  • The Last Refuge
  • Drudge Report
  • The Federalist
  • Orange County Register
  • The Epoch Times
  • Washington Times
  • Christian Broadcasting Network
  • National Review
  • Townhall
  • The Mark Levin Show
  • The Rush Limbaugh Show
  • Breitbart
  • Newsmax
  • The National Interest
  • The Gateway Pundit
  • RedState
  • PJ Media
  • Washington Examiner
  • Fox News
  • Christian Today
  • Zero Hedge
  • The Daily Caller
  • TheBlaze
  • The Daily Wire

Các website tin tức của đảng tự do

  • Vox
  • U.S. News & World Report
  • The Washington Post
  • CNN
  • Bustle
  • NBC News
  • Hollywood Reporter
  • Los Angeles Times
  • Yahoo News
  • Al Jazeera
  • Rolling Stone
  • HuffPost
  • The Verge
  • The New York Times
  • ABC News
  • TIME
  • CBS Local
  • The Guardian
  • Bloomberg
  • NPR
  • CBS News
  • The Atlantic
  • Politico
  • Univision

Trước khi chúng ta đi đến kết quả, tôi giới thiệu một chút về dữ liệu Ahrefs. Chúng tôi có hàng trăm triệu cụm từ tìm kiếm và lượng lớn dữ liệu clickstream. Chúng tôi sử dụng dữ liệu này để ước tính lưu lượng truy cập organic bằng cách xem xét tất cả các truy vấn khác nhau mà mọi người tìm kiếm, vị trí trang web chiếm trong kết quả tìm kiếm và nơi người dùng click vào. Đối với các Google Core Update, chúng tôi quyết định xem xét lưu lượng truy cập khi bắt đầu các bản cập nhật cốt lõi Google và lưu lượng truy cập 14 ngày sau đó. Điều này, giúp Google có thời gian triển khai các thay đổi đối với các trung tâm dữ liệu khác nhau của họ. Nó cũng cho chúng tôi thời gian để dữ liệu của chúng tôi phản ánh những thay đổi.

Dữ liệu của chúng tôi được chuẩn hóa, nghĩa là khối lượng được tính trung bình trong 12 tháng. Vì vậy, nó chủ yếu mang tính thời vụ, với các cuộc bầu cử là một ngoại lệ vì không phải hàng năm. Chúng tôi cũng sẽ không sớm thấy các câu chuyện hoặc chủ đề tìm kiếm mới hơn. Nhưng chúng tôi nên chọn bất kỳ tìm kiếm phổ biến nào và dữ liệu clickstreamcó liên quan sau đó.

2. Kết quả: Google thiên vị

Từ năm 2015 đến nay, có sự sụt giảm lưu lượng truy cập trung bình cho các trang web tin tức hàng đầu trong mỗi category trong suốt giai đoạn Google Core Update.

  • Tổng lưu lượng truy cập đảng bảo thủ giảm: -2,65%

  • Tổng lượng truy cập đảng tự do suy giảm: ‑1,78%

Những con số này thực sự rất giống nhau và không có ý nghĩa thống kê. Vì chúng tôi đang tính đến lưu lượng truy cập của 50 trang web và xem xét trong khoảng thời gian 6 năm. Trước cuộc bầu cử cuối cùng vào năm 2016, tác động lên cả hai hạng mục gần như ngang nhau. Cuộc bầu cử năm 2020, nếu bạn nhìn vào kết quả từ năm trước hoặc xa hơn, bạn sẽ thấy ảnh hưởng gần như ngang nhau đối với cả 2 category. Với bản cập nhật gần đây nhất có vẻ tốt hơn cho các website của những người theo phe đảng bảo thủ

Google Core Update ảnh hưởng lượng truy cập organic của website tin tức đảng bảo thủ và đảng tự do

Google Core Update ảnh hưởng lượng truy cập organic của website tin tức đảng bảo thủ và đảng tự do

Nếu chúng ta xem xét các điểm dữ liệu riêng lẻ, các website tin tức của đảng bảo thủ và đảng tự do đều thấy tác động tích cực, tiêu cực “Bản cập nhật cốt lõi Google”. Mỗi ô vuông bên dưới đại diện cho các website hàng đầu trong mỗi category và mỗi bản cập nhật đều có người thắng, người thua cho cả 2 category. Thông thường, việc một website thắng hay thua trong một bản cập nhật cốt lõi thường chú trọng nhiều đến chất lượng. Dựa vào những yếu tố này, chúng ta có thể biết được Google thiên vị website tin tức hay không.

Google thiên vị: sự ảnh hưởng của Google Core Update đến organic traffic của đảng Bảo thủ và đảng Tự do

Google thiên vị: sự ảnh hưởng của Google Core Update đến organic traffic của đảng Bảo thủ và đảng Tự do

Mặc dù, chúng tôi không thể kết luận từ dữ liệu này rằng không có sự thiên vị nào trong kết quả tìm kiếm của Google. Tuy nhiên, trong vòng 6 năm qua, chúng tôi không thấy bất kỳ sự thiên vị mới nào được giới thiệu trong Google Core Update.

3. Google thiên vị lưu lượng truy cập

Một trong những điều nổi bật là các website thuộc phe đảng tự do chắc chắn nhận được nhiều lưu lượng truy cập hơn các trang web đảng bảo thủ.

Lượng truy cập organic từ top 25 website tin tức đảng bảo thủ và đảng tự do

Lượng truy cập organic từ top 25 website tin tức đảng bảo thủ và đảng tự do

Tại sao lại như vậy? Điều này có cho thấy xu hướng tiềm năng trước tập dữ liệu từ khóa của chúng tôi không? Hãy cùng tìm hiểu xem liệu chúng ta có thể giải thích sự khác biệt trong lưu lượng truy cập hay không.

Số lượng content

Khi nhìn vào số lượng trang được index, các nguồn tin tức đảng Tự do có hơn 8 trang được index so với các nguồn tin tức của đảng Bảo thủ. Trên thực tế, biểu đồ gần giống với biểu đồ ở trên về tỷ lệ lưu lượng truy cập. Kết quả, các trang tin tức theo phe đảng Tự do xếp hạng đầu tiên thường có nhiều cơ hội xếp hạng hơn các trang tin tức đảng Bảo thủ top đầu.

Các trang tin tức Tự do xếp hạng đầu tiên và các trang tin tức đảng Bảo thủ top đầu

Các trang tin tức Tự do xếp hạng đầu tiên và các trang tin tức đảng Bảo thủ top đầu.

Lượng truy cập có brand hoặc non-brand

Lưu lượng truy cập được gắn brand cho CNN và Fox News gần giống nhau, có nghĩa là một số lượng người tương tự đang tìm kiếm chúng trong tìm kiếm organic. Tuy nhiên, lưu lượng truy cập có brand chiếm một tỷ lệ nhỏ hơn trong tổng lưu lượng truy cập của CNN. Đơn giản, bởi vì nó có nhiều content hơn. CNN có ~ 2,5 lần số trang được index như Fox News. Vì vậy, họ có nhiều cơ hội xếp hạng cho những thứ khác nhau.

Khoảng 40% lượng truy cập vào kênh CNN có gắn brand, khoảng 32.5 lượt truy cập organic hàng tháng

Khoảng 40% lượng truy cập vào kênh CNN có gắn brand, khoảng 32.5 lượt truy cập organic hàng tháng

Khoảng 67% lưu lượng truy cập vào Fox News có brand và khoảng 33 triệu lượt truy cập organic hàng tháng.

Khoảng 67% lưu lượng truy cập vào Fox News có brand và khoảng 33 triệu lượt truy cập organic hàng tháng.

Giải thích sự khác biệt trong lượng traffic

Chỉ với dữ liệu tìm kiếm của Google, thật khó để xác định lý do tại sao các trang web của đảng Tự do nhận được nhiều lượng truy cập hơn các website của đảng Bảo thủ. Có thể những người theo phe đảng Bảo thủ có xu hướng sử dụng Google ít hơn. Cũng có thể những người thuộc đảng Bảo thủ nhận được nhiều tin tức từ TV, ứng dụng hoặc phương tiện truyền thông xã hội hơn Google. Tất cả điều này có thể đúng, nhưng nếu không có dữ liệu bổ sung, những tuyên bố này không thể được xác nhận và chỉ là dự đoán.

4. Những cách chứng minh Google thiên vị

Nếu chúng ta xem xét các ví dụ cụ thể về truy vấn, chắc chắn là chúng ta sẽ tìm thấy bằng chứng chứng minh Google thiên vị. Vấn đề ở chỗ sử dụng các ví dụ riêng lẻ là có sự thiên vị cố hữu từ người thực hiện phân tích. Dữ liệu phức tạp và bạn cần một cách tốt để xác định xem các trang web và nội dung có liên quan đến các truy vấn cụ thể hay không. Thật không may, điều này sẽ khó khăn và cực kỳ chủ quan. Đó là lý do tại sao chúng tôi đã chọn không theo đuổi con đường này.

Chúng tôi cũng có thể xem xét dữ liệu liên kết hoặc liên kết từ các trang web khác đến các trang tin tức này. Một lần nữa, dữ liệu này bị sai lệch vì các website phổ biến và xếp hạng cao hơn ở nhiều trang sẽ có xu hướng nhận được nhiều liên kết hơn một cách tự nhiên. Điều này đã được chứng minh trong nghiên cứu tăng trưởng backlink.

Những backlink mới nằm trong top 10 của trang web

Những backlink mới nằm trong top 10 của trang web

Chúng tôi đã xem xét các ví dụ cụ thể về các cụm từ tìm kiếm do Google đề xuất thông qua hệ thống tự động điền của họ. Tuy nhiên, chúng tôi biết rằng họ đã loại bỏ nhiều cụm từ phủ định khỏi các kết quả này. Một lần nữa, điều này đã là thành kiến, và rất khó để chứng minh.

5. Kết luận về Google thiên vị

Có một sự thiên vị cố hữu trong mọi thứ. Mặc dù, dữ liệu của chúng tôi cho thấy rằng Google Core Update dường như không thiên vị theo cách này hay cách khác trong vài năm qua. Tuy nhiên, vẫn có một sự thiên vị trong hệ thống của Google

Nguồn tham khảo: https://ahrefs.com/blog/is-google-biased/