Duplicate Content là gì? 15 Nguyên nhân và Cách khắc phục hiệu quả
Tôi chắc rằng ngay lúc này, tại đây bạn có câu hỏi rất lớn đối với cụm từ “Duplicate Content!?”. Nó thật sự là vấn đề không chỉ riêng người chuyên về Content, Marketing, SEOer,… mới quan tâm. Mà nó là một đề tài của mọi người, mọi ngành nghề nếu đang sở hữu hoặc làm việc trên website.
Bạn đã quá băn khoăn khi nghe một ai đó nhắc về Duplicate Content là gì chưa, như:
-
Nội dung bị Duplicate Content sẽ 100% gây hại đến website, có thể bị Google phạt.
-
Hay, Duplicate Content thật sự không ảnh hưởng xấu đến website, không cần chú ý quá nhiều.
Tuy nhiên, đây mới thật sự là thắc mắc của bạn về Duplicate Content:
-
Duplicate Content là gì?
-
Duplicate Content thật sự là vấn đề gì về nội dung?
-
Nếu Duplicate Content ảnh hưởng xấu đến website thì cách xử lý như thế nào?
-
Đặc biệt hơn, cách nào để phát hiện trùng lặp nội dung và cách Check Duplicate Content trên website?
Tôi cũng từng như bạn và hiểu bạn cần gì. Đó là lý do tôi gửi đến bạn nội dung hướng dẫn sau. Đây lời giải cho tất cả câu hỏi của bạn về Duplicate Content và hơn thế.
Tìm hiểu ngày nào!
Duplicate Content là gì?
Hiểu theo nghĩa hẹp thì Duplicate Content chính là những nội dung trên một hoặc nhiều website khác nhau nhưng lại tương tự hoặc hoàn toàn giống nhau. Hiểu theo nghĩa rộng hơn thì Duplicate Content là gì? Nó là nội dung mang lại ít hoặc không có giá trị đối với khách truy cập. Vì thế, các trang có ít hoặc không có nội dung hữu ích cũng được xem là Duplicate Content.
Robot công cụ tìm kiếm gặp khó khăn với Duplicate Content
Tại sao Duplicate Content có hại cho SEO?
Duplicate Content có thể làm ảnh hưởng xấu đến SEO vì hai lý do dưới đây:
-
Khi có nhiều phiên bản nội dung thì rất khó để công cụ tìm kiếm xác định được nên index phiên bản nào. Cũng như hiển thị phiên bản nào trong trang kết quả. Điều này làm giảm hiệu suất của tất cả các phiên bản nội dung bởi chúng đang cạnh tranh lẫn nhau.
-
Các công cụ tìm kiếm sẽ gặp khó khăn khi hợp nhất số liệu liên kết. Ví dụ như mức độ liên quan, mức độ ảnh hưởng và mức độ tin cậy cho nội dung. Đặc biệt là khi các website khác liên kết với nhiều phiên bản nội dung đó.
Google có phạt Duplicate Content không?
Duplicate Content sẽ gây ảnh hưởng xấu đến hiệu suất SEO của website của bạn. Nhưng nó sẽ không khiến cho website của bạn bị Google phạt nếu bạn không cố tình sao chép nội dung của những website khác.
Nếu bạn sử dụng một vài kỹ thuật trong website của mình nhưng không cố tình lừa Google thì không cần lo lắng về việc bị Google phạt.
Nếu bạn đã sao chép một lượng lớn nội dung website khác. Thì chắc chắn bạn đang đứng ở ranh giới mỏng manh. Bởi Google đã từng lên tiếng về vấn đề Duplicate Content như sau:
“Duplicate content trên một website không phải là cơ sở để áp dụng hình phạt. Google chỉ phạt khi website sử dụng Duplicate Content để đánh lừa và thao túng kết quả của công cụ tìm kiếm.
Nếu website của bạn đang gặp vấn đề về Duplicate content và bạn không tuân theo các khuyến cáo của Google. Thì chúng tôi sẽ lựa chọn phiên bản nội dung tốt nhất để hiển thị trong kết quả tìm kiếm”
15 Nguyên nhân phổ biến dẫn đến Duplicate Content và Cách khắc phục
Có rất nhiều nguyên nhân dẫn đến lỗi Technical SEO – Duplicate Content. Tuy nhiên, tôi đã tổng hợp lại 15 nguyên nhân thường gặp dẫn đến vấn đề này và cách để giải quyết chúng.
1. Faceted/Filtered Navigation
Faceted Navigation – Hay còn gọi là điều hướng nhiều chiều. Là nơi mà người dùng có thể lọc và sắp xếp các mục trên trang. Các website thương mại điện tử thường sử dụng nó rất nhiều.
Loại điều hướng này gắn các tham số vào cuối URL. Ví dụ:
Điều hướng có tham số cuối URL
Bởi vì thường có nhiều sự kết hợp của các bộ lọc. Điều hướng nhiều chiều dẫn đến Duplicate Content hoặc gần trùng lặp.
Cùng xem xét 2 ví dụ dưới đây để hiểu rõ hơn về nguyên nhân này nhé:
-
bbclothing.co.uk/en-gb/clothing/shirts.html?new_style=Checked
-
bbclothing.co.uk/en-gb/clothing/shirts.html?Size=S&new_style=Checked
Các URL này là duy nhất, nhưng nội dung lại gần như giống hệt nhau.
Ngoài ra, thứ tự của các tham số thường không quan trọng. Ví dụ: bạn có thể truy cập cùng một trang khi sử dụng 1 trong 2 URL sau:
-
bbclothing.co.uk/en-gb/clothing/shirts.html?new_style=Checked&Size=XL
-
bbclothing.co.uk/en-gb/clothing/shirts.html?Size=XL&new_style=Checked
Cách sửa chữa:
Faceted navigation là một vấn đề rất phức tạp. Nếu bạn nghi ngờ đây chính là nguyên nhân dẫn đến Duplicate Content. Hãy quyết định xem bạn muốn Google index những trang nào. Sau đó, hãy tăng số lượng trang hữu ích được index và bỏ đi những trang không cần thiết.
2. Tracking Parameters
Các URL được tham số hóa cũng được sử dụng để theo dõi. Ví dụ, ta có thể sử dụng thông số UMT để theo dõi lượt truy cập trong phần chiến dịch bản tin của Google Analytics:
Ví dụ: example.com/page?utm_source=newsletter
Cách sửa chữa:
Chuẩn hóa các URL được tham số hóa của bạn để có được các phiên bản thân thiện với SEO mà không cần có các thông số theo dõi.
3. Session IDs
Session IDs lưu trữ thông tin về khách truy cập vào website. Chúng thường nối một chuỗi dài vào URL như sau:
Ví dụ: example.com?sessionId=jow8082345hnfn9234
Cách khắc phục:
Chuẩn hóa các URL để có được các phiên bản thân thiện với SEO.
4. HTTPS với HTTP và non-www với www
Bạn có thể truy cập vào website bằng một trong 4 biến thể dưới đây:
-
https://www.example.com (HTTPS, www)
-
https://example.com (HTTPS, non-www)
-
https://www.example.com (HTTP, www)
-
https://example.com (HTTP, non-www)
Phiên bản sử dụng HTTPS chính là hai URL đầu tiên. Dù là dùng phiên bản có www hay không có www thì bạn vẫn có thể truy cập website được.
Tuy nhiên, nếu bạn không cấu hình chính xác máy chủ. Thì website của bạn sẽ có thể được truy cập bằng những biến thể này. Điều này thực sự không tốt và có thể dẫn đến vấn đề Duplicate Content.
Cách sửa chữa:
Sử dụng chuyển hướng để đảm bảo website của bạn chỉ có thể được truy cập bằng một phiên bản duy nhất.
5. URL phân biệt chữ hoa chữ thường
URL phân biệt chữ hoa chữ thường nghĩa là 3 URL dưới đây đều khác nhau:
-
example.com/page
-
example.com/PAGE
-
example.com/pAgE
Cách sửa chữa:
Nhất quán với các liên kết nội bộ (nghĩa là không liên kết nội bộ với nhiều phiên bản URL). Nếu cách này không giải quyết được vấn đề Duplicate Content là gì nữa, thì có thể thử chuẩn hóa hoặc chuyển hướng.
6. Dấu gạch chéo theo sau so với dấu gạch chéo không theo sau
Google không xem xét đến vấn đề các URL có hay không có dấu gạch chéo theo sau. Điều đó có nghĩa là Google xem 2 URL dưới đây như một:
-
example.com/page/
-
example.com/page
Nếu nội dung của bạn có thể được truy cập bằng cả hai URL thì sẽ dẫn đến lỗi Duplicate Content. Để Check Duplicate Content xem đây có phải sự cố hay không, hãy thử dùng cả URL có và không có dấu gạch chéo theo sau.
Ví dụ: Nếu bạn cố gắng tải bài đăng của mình bằng URL không có dấu gạch chéo, nó sẽ chuyển hướng đến URL có dấu gạch chéo.
Cách sửa chữa:
Chuyển hướng phiên bản không mong muốn. Ví dụ: Không có dấu gạch chéo theo sau, sang phiên bản mong muốn (ví dụ: có dấu gạch chéo theo sau). Bạn cũng nên đảm bảo luôn luôn nhất quán các liên kết nội bộ. Hãy chọn một phiên bản duy nhất và sử dụng xuyên suốt cho tất cả các URL.
7. URL thân thiện với bản in
URL thân thiện với bản in có nội dung giống như bản gốc. Và nó đơn giản chỉ là một URL khác mà thôi.
-
example.com/page
-
example.com/print/page
Cách sửa chữa:
Chuẩn hóa các phiên bản thân thiện thành phiên bản bản gốc.
8. URL thân thiện với thiết bị di động
Tương tự như các URL thân thiện với bản in thì các URL thân thiện với thiết bị di động cũng là trùng lặp.
Ví dụ:
-
example.com/page
-
m.example.com/page
Cách sửa chữa:
Chuẩn hóa phiên bản thân thiện với thiết bị di động thành phiên bản gốc. Sử dụng rel=“alternate” để nhắc nhở Google rằng URL thân thiện với thiết bị di động là phiên bản thay thế cho phiên bản nội dung trên máy tính để bàn.
9. URL AMP
Các trang thiết bị di động được tăng tốc (AMP) cũng là các bản trùng lặp.
Ví dụ:
-
example.com/page
-
example.com/amp/page
Cách khắc phục:
Chuẩn hóa phiên bản AMP thành phiên bản không sử dụng AMP. Sử dụng rel=”amphtml” để thông báo với Google rằng các URL AMP là phiên bản thay thế cho các nội dung không chứa AMP.
Nếu bạn chỉ có nội dung AMP, hãy sử dụng thẻ canonical tự tham chiếu (self-referencing canonical tag).
Nếu chưa biết thẻ Canonical là gì, bạn có thể xem bài viết: Thẻ Canonical là gì? 7 Sai lầm sử dụng thẻ Canonical Tag trong SEO
10. Tag và Category Pages
Hầu hết các CMS (Hệ quản trị nội dung) đều tạo các trang có các thẻ chuyên dụng khi bạn sử dụng thẻ.
Ví dụ: Nếu bạn có một bài viết về Whey Protein hữu cơ. Và bạn đang sử dụng cả 2 cụm từ “bột protein” và “whey” làm thẻ thì bạn sẽ kết thúc với hai trang thẻ như sau:
-
https://www.calton Nutrition.com/tag/whey/
-
https://www.calton Nutrition.com/tag/protein-powder/
Điều này không phải lúc nào cũng dẫn đến Duplicate Content nhưng đôi khi nó cũng gây ra vấn đề này.
Trường hợp dưới đây, chỉ có một trang trên website có hai thẻ – Vì vậy mỗi trang đều giống hệt nhau.
Trang thứ nhất dùng cụm từ “bột protein”
Trang thứ hai dùng cụm từ “whey”
Cách sửa chữa:
Có 2 cách giải quyết như sau:
-
Không sử dụng thẻ. Bởi chúng có rất ít hoặc thậm chí là không có giá trị gì.
-
Không index các trang có nhiều thẻ. Điều này sẽ không giải quyết được vấn đề ngân sách thu nhập dữ liệu bởi Google sẽ vẫn dành thời gian thu thập những trang này.
Lưu ý rằng các trang danh mục có thể dẫn đến vấn đề tương tự như các trang có nhiều thẻ. Ví dụ như:
-
https://www.xs-stock.co.uk/adidas/
-
https://www.xs-stock.co.uk/brands/Chelsea-FC.html
Cả 2 trang này gần như là giống hệt nhau vì không có sản phẩm nào được liệt kê trong cả 2 danh mục. Do đó, tất cả những gì chúng ta nhìn thấy chỉ là bản sao mẫu đã được soạn sẵn.
Cách sửa chữa:
Sử dụng số lượng vừa phải các danh mục trên website hoặc thậm chí là không index các trang danh mục của bạn.
11. URL hình ảnh đính kèm
Nhiều CMS tạo ra các trang dành riêng cho tệp đính kèm hình ảnh. Những trang này thường không hiển thị gì ngoài hình ảnh và một số bản sao chép mẫu.
Bởi vì bản sao này giống nhau xuyên suốt tất cả các trang được tạo tự động nên nó dẫn đến Duplicate Content.
Cách sửa chữa:
Tắt các trang dành riêng cho hình ảnh trong CMS. Trong WordPress, bạn có thể làm điều này bằng cách sử dụng một plugin như Yoast.
12. Nhận xét được phân trang
WordPress và các CMS cho phép nhận xét được phân trang. Điều này cũng dẫn đến Duplicate Content bởi vì nó tạo ra nhiều phiên bản của cùng một URL.
Ví dụ:
-
example.com/post/
-
example.com/post/comment-page‑2
-
example.com/post/comment-page‑3
Cách sửa:
Tắt phân trang nhận xét hoặc không lập chỉ mục những trang được phân trang của bạn bằng cách sử dụng một plugin như Yoast.
13. Localization
Nếu bạn phân bổ một nội dung tương tự cho nhiều người ở nhiều quốc gia nhưng sử dụng chung một ngôn ngữ (ví dụ: tiếng Anh) thì cũng sẽ dẫn đến vấn đề Duplicate Content.
Ví dụ: Bạn có thể thiết kế từng phiên bản website khác nhau cho người dùng ở Mỹ, Anh và Úc. Mỗi phiên bản dành cho mỗi quốc gia này sẽ gần như trùng lặp nhau và chỉ khác nhau ở một vài điểm nhỏ.
Chẳng hạn như sử dụng từ “đô la” trong nội dung dành cho người Mỹ và “bảng Anh” trong nội dung dành cho người Anh.
Tuy nhiên, theo John Mueller thì nội dung bản dịch không phải là Duplicate Content.
Cách sửa:
Sử dụng thẻ Hreflang để thông báo cho các công cụ tìm kiếm biết về mối quan hệ giữa các biến thể.
Tham khảo: Thẻ Hreflang là gì? Cách thêm “Hreflang” cho website WordPress từ A-Z
14. Trang kết quả tìm kiếm
Rất nhiều website có hộp tìm kiếm. Việc sử dụng những hộp này thường tạo ra một URL tìm kiếm được tham số hóa.
Ví dụ: example.com?q=search-term
Cách khắc phục:
Sử dụng thẻ Meta Robot để xóa các trang tìm kiếm khỏi danh sách chỉ mục của Google hoặc chặn quyền truy cập vào các trang chứa kết quả tìm kiếm trong tệp robots.txt. Hạn chế liên kết nội bộ đến các trang chứa kết quả tìm kiếm trên website của bạn.
15. Môi trường Staging
Môi trường Staging là một phiên bản trùng hoặc gần trùng lặp của website được sử dụng với mục đích thử nghiệm.
Ví dụ: Hãy tưởng tượng rằng bạn muốn cài đặt một Plugin mới hoặc thay đổi một vài code trên website của mình. Tất nhiên là bạn không muốn hiển thị chúng ra website của mình bởi mỗi ngày, có hàng ngàn khách truy cập vào xem nó.
Do đó, hãy kiểm tra những thay đổi trong môi trường staging trước. Tuy nhiên, môi trường Staging lại ảnh hưởng đến SEO khi Google vẫn index chúng và dẫn đến vấn đề Duplicate Content.
Cách khắc phục:
Để bảo vệ môi trường Staging. Bạn nên sử dụng xác thực HTTP, danh sách trắng các địa chỉ IP hoặc quyền truy cập VPN. Nếu nó vẫn được index thì hãy sử dụng lệnh ngăn index tự động để xóa nó.
Cách Check Duplicate Content trên website
Duplicate Content là nội dung xuất hiện trên nhiều vị trí trực tuyến. Điều này có nghĩa là các website khác nhau. Nếu bạn đăng nội dung của mình nhiều nơi thì sẽ dẫn đến Duplicate Content.
Nếu bạn sao chép nội dung những người khác và đăng lên website của mình. Hoặc thậm chí là họ đăng những nội dung của bạn lên website của họ thì đều bị xem là Duplicate Content.
Vậy làm sao để Check Duplicate Content xem nội dung của mình có bị mắc lỗi Duplicate Content hay không?
Sử dụng Google để Check Duplicate Content
Cách nhanh chóng để kiểm tra xem một trang có bị xem là chứa nội dung trùng lặp (Duplicate Content) hay không chính là sao chép khoảng 10 từ đầu tiên của câu và để chúng vào dấu ngoặc kép. Sau đó, bỏ chúng lên Google. Đây là cách mà Google đề xuất để Check Duplicate Content.
Nếu bạn chỉ kiểm tra Duplicate Content trong nội bộ trang của website của mình thì sẽ không đạt được kết quả hữu ích nào cả.
Nếu các website khác hiển thị tốt tương tự như website của bạn. Google sẽ đánh giá xem trang nào là trang nguồn gốc và hiển thị nó trước. Nếu website của bạn không được hiển thị đầu tiên nghĩa là đã gặp vấn đề Duplicate Content.
Các Tool miễn phí hỗ trợ Check Duplicate Content Online
Trước khi đăng bài viết, bạn nên kiểm tra nội dung của mình bằng các công cụ kiểm tra đạo văn. Dưới đây là các công cụ miễn phí mà bạn có thể dùng để Check Duplicate Content Online.
-
Copyscape – Với công cụ Check Duplicate Content Online này, bạn chỉ mất khoảng vài giây là đã có thể kiểm tra nội dung có trùng lặp với những nội dung đã được đăng lên. Công cụ so sánh này sẽ làm nổi bật nội dung trùng lặp, cũng như ghi rõ trùng lặp bao nhiêu phần trăm.
-
Plagspotter – Công cụ này có thể xác định được các trang có nội dung trùng lặp trên website. Đây là một công cụ tuyệt vời để xác định được website nào đã đánh cắp nội dung từ website của bạn. Nó cũng cho phép tự động theo dõi các URL của mình hàng tuần để xác định Duplicate Content.
-
Duplichecker – Công cụ này kiểm tra nhanh chóng tính duy nhất của nội dung mà bạn dự định đăng lên website của mình. Những người dùng đã đăng ký công cụ này có thể thực hiện tối đa 50 lượt tìm kiếm/ngày.
-
Siteliner – Công cụ này giúp ta có thể kiểm tra toàn bộ website của mình 1 lần/tháng để tìm lỗi Duplicate Content. Nó cũng có thể kiểm tra được các liên kết bị hỏng. Và xác định được những trang nổi bật nhất đối với các công cụ tìm kiếm.
-
Smallseotools – Có nhiều công cụ SEO, bao gồm cả công cụ kiểm tra đạo văn giúp bạn xác định được các đoạn nội dung giống hệt nhau.
Lời kết
Hy vọng qua bài viết này, bạn đã biết rõ được Duplicate Content là gì và những tác hại của nó đối với website của bạn. Do đó, trước khi đăng bất cứ bài viết nào đó, bạn nên sử dụng các công cụ Check Duplicate Content Online để đảm bảo nội dung của mình là duy nhất.
Chỉ cần bạn làm theo hướng dẫn này và nghiêm túc trong việc quản lý Duplicate Content. Bạn sẽ cải thiện thứ hạng của mình và tránh những lỗi không đáng có trên website.
Chúc bạn thành công!