Cách Khắc Phục Duplicate Content

Duplicate content là gì? Duplicate content gây hại gì cho SEO? Nếu bạn từng nghe qua khái niệm này và đang tìm cách kiểm tra xem website có bị tình trạng duplicate content không thì hãy cùng Đào Tạo SEO Website Á Âu tham khảo bài viết sau.

Duplicate content là gì?

Duplicate content (trùng lặp nội dung) là hiện tượng nội dung trên web bị lặp lại ở nhiều nơi, có thể xảy ra trên một website hoặc cross-domain.

Ví dụ, nếu bài viết bạn đang đọc được đăng lại một lần nữa trên chính website này, hoặc trên một website khác thì đó là duplicate content.

Duplicate content

(Nguồn ảnh: Internet)

Ảnh hưởng của duplicate content lên SEO?

Duplicate content gây ảnh hưởng tiêu cực lên SEO, điển hình gồm:

– URL không thân thiện và không mong muốn trong trang kết quả tìm kiếm

– “Loãng” backlink

– Trì hoãn thời gian quét

– Bị “cướp” thứ hạng bởi scraped và syndicated content

URL không thân thiện mà mình không mong muốn xuất hiện trong kết quả tìm kiếm

Hãy tưởng tượng cùng một trang nhưng lại có đến 3 URL khác nhau:

domain.com/page/

domain.com/page/?utm_content=buffer&utm_medium=social

domain.com/category/page/

Kết quả đầu tiên là kết quả nên được hiển thị trong kết quả tìm kiếm, tuy nhiên Google có thể hiểu nhầm, dẫn đến URL không mong muốn, thiếu thân thiện sẽ chiếm vị trí đó. Do người dùng thường né tránh các URL thiếu thân thiện nên bạn có thể bị mất organic traffic.

Một nội dung lại có nhiều URL và mỗi URL đó lại thu hút các backlink khác nhau sẽ dẫn đến bị “loãng” link equity giữa các URL (link equity, còn được gọi là link juice, là một yếu tố xếp hạng của các công cụ tìm kiếm dựa trên ý tưởng rằng những liên kết sẽ chuyền giá trị và độ uy tín của trang này cho trang khác).

Thử nhìn vào ví dụ hai trang sau:

https://buffer.com/library/social-media-manager-checklist

buffer.com/resources/social-media-manager-checklist

Hai trang này có nội dung trùng lặp gần như hoàn toàn. Chúng có 106 và 144 referring domain (referring domain là các domain có link trỏ về website của bạn).

loãng backlink khi bị duplicate content

(Nguồn ảnh: Internet)

Trong quá trình xác định duplicate content, Google sẽ nhóm các URL thành một cụm. Sau đó Google sẽ “chọn URL tốt nhất đại diện cho cả cụm trong kết quả tìm kiếm và tăng cường sức mạnh cho property của các URL trong cụm đó, ví dụ link popularity (độ phổ biến của link) đối với URL đại diện đó”.

Trong trường hợp này, Google sẽ hiển thị duy nhất một trong số các URL trên trong kết quả tìm kiếm tự nhiên và cộng hưởng tất cả referring domain trong cụm (106 + 144) cho URL đó.

Tuy nhiên, như hình dưới đây thì cả hai URL lại đều xuất hiện trên Google cho keyword tương tự nhau.

ví dụ về loãng backlink

(Nguồn ảnh: Internet)

ví dụ 2 về loãng backlink

(Nguồn ảnh: Internet)

Trong trường hợp này, Google dường như không tăng cường link equity cho một URL. Chúng tôi cũng không chắc chắn về cách Google nhìn nhận hai URL này. Có thể Google xem cả hai URL này đều là duplicate content, và một trong hai link sẽ sớm biến mất khỏi kết quả tìm kiếm tự nhiên.

Trì hoãn thời gian quét

Google tìm content mới trên website của bạn bằng cách quét, nghĩa là Google theo dõi các link (từ trang hiện tại cho đến trang mới) và sẽ quét lại những trang cũ để phát hiện có thay đổi gì không.

Duplicate content tác động xấu đến tốc độ và mức độ thường xuyên khi Google quét trang mới hoặc trang vừa update của bạn, dẫn tới trì hoãn quá trình index trang mới và tái index những trang vừa được update.

Bị “cướp” thứ hạng bởi scraped và syndicated content

Đôi khi bạn vẫn cho phép website khác đăng tải lại content của bạn, gọi là syndication. Mặt khác, cũng có trang “cuỗm” content của bạn và đăng lại mà không hề xin phép, gọi là scraped content (hành vi sử dụng content trên các website khác uy tín hơn một cách trái phép nhằm gia tăng khối lượng thông tin cho website của mình một cách nhanh chóng).
Cả hai trường hợp trên đều dẫn đến duplicate content trên nhiều domain. Tuy nhiên, vấn đề chỉ thật sự xảy ra thì những content “sao chép lậu” đó đạt thứ hạng cao hơn bài viết gốc trên site của bạn. Tình trạng này không thường xuyên xảy ra nhưng vẫn có khả năng.

Google có xử phạt duplicate content?

Nhiều đại diện của Google từng phát ngôn rằng trong đa số trường hợp, họ không có hình thức xử phạt đối với duplicate content.

duplicate content có bị phạt không?

(Nguồn ảnh: Internet)

Tuy nhiên, bạn chỉ “trắng án” nếu lỗi duplicate content là do vô tình, không phải cố ý spam hay gian lận kết quả tìm kiếm. Google khẳng định:

“Trong vài trường hợp hiếm hoi, nếu nhận thấy duplicate content xuất phát từ ý đồ gian lận thứ hạng và lừa dối người dùng, chúng tôi sẽ có điều chỉnh thích hợp trong việc index và xếp hạng cho các trang liên quan. Kết quả là thứ hạng của trang sẽ bị ảnh hưởng, hoặc trang sẽ không được Google index và có cơ hội xuất hiện trên kết quả tìm kiếm nữa”.
Câu hỏi đặt ra là “Thế nào là gian lận thứ hạng và lừa dối người dùng?”. Về cơ bản, Google đã đưa ra giải đáp cho thắc mắc trên:

– Chủ ý tạo nhiều trang, subdomain hoặc domain chứa nhiều duplicate content.

– Đăng nhiều scraped content.

– Đăng content tiếp thị lấy từ Amazon và trang khác (và không mang giá trị cộng thêm nào).

Nhìn chung, điều bạn cần quan tâm là duplicate content vẫn gây tổn hại đến SEO, dù có bị phạt hay không.

Nguyên nhân gây ra duplicate content

Điều hướng đa chiều

Điều hướng đa chiều (Faceted navigation) là vị trí mà người dùng có thể lọc và phân loại trên trang, điển hình là trên các trang thương mại điện tử, có thêm parameter nằm ở cuối URL.

điều hướng theo đa chiều

(Nguồn ảnh: Internet)

Do có nhiều yếu tố kết hợp trong các filter này nên faceted navigation thỉnh thoảng tạo ra tình trạng duplicate content. Ví dụ trong hai trang sau, URL thì unique nhưng nội dung lại gần như y hệt:

bbclothing.co.uk/en-gb/clothing/shirts.html?new_style=Checked

bbclothing.co.uk/en-gb/clothing/shirts.html?Size=S&new_style=Checked

Thậm chí, thứ tự parameter dù có thay đổi thì hai URL vẫn có thể chứa nội dung trùng lặp:

bbclothing.co.uk/en-gb/clothing/shirts.html?new_style=Checked&Size=XL

bbclothing.co.uk/en-gb/clothing/shirts.html?Size=XL&new_style=Checked

URL chứa parameter nhằm mục đích theo dõi

URL chứa parameter dùng để theo dõi khách hàng. Ví dụ: example.com/page?utm_source=newsletter

Để khắc phục tình trạng này, bạn nên canonicalize URL chứa parameter để thân thiện hơn với SEO bằng cách dùng thẻ canonical (thẻ HTML hoạt động như một phương pháp để Google xác định đâu là một đường dẫn duy nhất).

Session ID

Session ID giúp lưu trữ thông tin người truy cập vào website, thường có chuỗi dài trong URL như sau: example.com?sessionId=jow8082345hnfn9234.

Cách giải quyết cũng tương tự như trường hợp trên.

HTTPS và HTTP, non-www và www

Đa phần website được truy cập thông qua một trong bốn biến thể sau:

https://www.example.com (HTTPS, www)

https://example.com (HTTPS, non-www)

http://www.example.com (HTTP, www)

http://example.com (HTTP, non-www)

Sử dụng HTTPS, www hay non-www là tùy bạn. Tuy nhiên nên tránh trường hợp trang của bạn có thể truy cập từ nhiều hơn một biến thể, dẫn đến duplicate content. Để xử lý, bạn đơn giản chỉ cần redirect.

URL chứa ký tự viết in

example.com/page

example.com/PAGE

example.com/pAgE

Ba URL trên khác nhau do chứa ký tự viết in khác nhau. Bạn nên thống nhất trong các internal link (ví dụ đừng liên kết nội bộ đến nhiều phiên bản URL khác nhau).

Dấu gạch xiên

example.com/page/

example.com/page

Hai URL trên đều được Google đánh giá là unique. Nếu cả hai URL đều dẫn về một content thì bạn đang gặp vấn đề duplicate content. Để kiểm tra, hãy thử lần lượt tải trang khi có dấu gạch xiên và khi không có dấu gạch xiên.

Cách giải quyết là redirect URL không mong muốn (ví dụ không có gạch xiên) đến URL mong muốn (có gạch xiên).

Phiên bản print-friendly có nội dung hệt như bản gốc, chỉ có URL là khác. Ví dụ:

example.com/page

example.com/print/page

Để khắc phục, bạn canonicalize phiên bản này đối với bản gốc.

URL thân thiện với mobile

Hai URL sau cũng được xem là duplicate:

example.com/page

m.example.com/page

Để xử lý, bạn dùng thẻ rel=“alternate” để báo Google biết URL thân thiện với mobile là phiên bản thay thế cho desktop.

AMP URL

Accelerated Mobile Pages (AMP) cũng là duplicate.

example.com/page

example.com/amp/page

Dùng thẻ rel=”amphtml” để thông báo Google rằng URL AMP là phiên bản thay thế cho nội dung non-AMP.

Phân trang bình luận

WorkPress và một số CMS khác cho phép các trang bình luận bị phân thành nhiều trang. Điều này tạo ra duplicate content khi vô tình xuất hiện nhiều phiên bản URL giống nhau. Ví dụ:

example.com/post/

example.com/post/comment-page‑2

example.com/post/comment-page‑3

Để xử lý vấn đề này, bạn tắt chức năng phân trang bình luận hoặc noindex cho các trang bị phân ra bằng cách dùng plugin như Yoast.

Staging environment

Staging environment (môi trường kiểm thử) là phiên bản duplicate của trang của bạn, dùng cho mục đích test khi bạn muốn cài đặt plugin mới hoặc thay đổi code trên website nhưng lại sợ Google index, dẫn tới duplicate content.

Muốn xử lý vấn đề này, hãy bảo vệ staging enrironment bằng cách sử dụng HTTP authentication, IP whitelisting (danh sách trắng các địa chỉ IP) hoặc truy cập VPN (mạng riêng ảo). Nếu đã lỡ index, bạn dùng giải pháp noindex.

Cách kiểm tra duplicate content trên các web

Content scraping (sao chép nội dung không được sự cho phép) và content syndication (đăng tải lại nội dung trên website bên thứ ba) đều có thể gây ra tình trạng duplicate content, nhưng điều này chỉ hay xảy ra khi website chứa nội dung sao chép lại đạt thứ hạng cao hơn bản gốc của bạn.

Tuy nhiên vấn đề này thường xảy ra với những website mới hoặc yếu, bởi những trang sao chép nội dung đôi khi có mức độ authoritative cao hơn bạn, khiến Google tưởng rằng các trang đó mới là bản gốc.

Vì thế, nếu bạn sở hữu website nhỏ, hãy thử xác định scraped content bằng cách tìm trên Google theo dạng trích dẫn nằm trong ngoặc kép.

scraped content là gì?

(Nguồn ảnh: Internet)

Với website lớn hơn, bạn dùng công cụ tự động như https://www.copyscape.com/

công cụ copyscape

(Nguồn ảnh: Internet)

Dù bạn dùng công cụ gì thì các kết quả hiển thị thường là các trang spam hoặc chất lượng thấp. Sử dụng https://ahrefs.com/site-explorer để kiểm tra organic traffic các trang đó xem có cao hơn trang của bạn hay không.

Nếu bị các trang khác “cuỗm” mất traffic, hãy thử ba cách sau:

– Yêu cầu họ gỡ content đó xuống

– Yêu cầu họ thêm canonical link dẫn tới bản gốc trên site của bạn

– Đệ đơn DMCA thông qua Google .

Nếu bạn đăng lại content từ các site khác về site mình, có hai cách để tránh duplicate content:

– Thêm link canonical về bài gốc

– Noindex trang

Trên đây là thông tin giải đáp duplicate content là gì và cách kiểm tra, xử lý vấn đề duplicate content. Mong rằng bạn sẽ mau chóng giải quyết dứt điểm tình trạng duplicate content để website đạt hiệu quả SEO tốt hơn.

Điểm: 4.9 (37 bình chọn)

Tác giả: Lâm Vĩ

Tôi là một Marketer, hiện đang công tác tại Hướng Nghiệp Á Âu với vai trò nghiên cứu, sáng tạo và phát triển các giải pháp tiếp thị hiệu quả trong thế giới Digital Marketing.

Bài viết liên quan

ĐƠN VỊ TUYỂN DỤNG CHEFJOB.VN

ĐẦU BẾP - BẾP BÁNH - PHA CHẾ - PHỤC VỤ - BUỒNG PHÒNG

LỄ TÂN - QUẢN LÝ NHÀ HÀNG - KHÁCH SẠN

Hotline: 1900 2175 - Web: www.chefjob.vn

SIÊU THỊ ĐVP MARKET

Chuyên bán sỉ lẻ Nguyên liệu - Dụng cụ - Máy móc

TRÀ SỮA - CAFÉ - QUÁN ĂN - QUÁN KEM - KINH DOANH BÁNH

Hotline: 028 7300 1770 - Web: www.dvpmarket.com

Ý kiến của bạn