Entity SEO: Tất cả những gì bạn cần biết về "thực thể"

Các entity hay thực thể có chút bí ẩn. Chúng đã xuất hiện trong nhiều năm nay và tác động đến nhiều khía cạnh của cơ chế tìm kiếm, nhưng chúng hiếm khi được thảo luận đến. Có thể một phần lý do là vì không có nhiều thông tin chắc chắn về các thực thể và các bằng sáng chế không phải ai cũng hiểu được của Google lại chưa chứng tỏ được gì nhiều. Nhưng ngay cả khi bạn có hiểu được các thực thể, thì cũng không chắc liệu nó có thể được sử dụng cho SEO hay không.

Trong bài viết này, Đào tạo SEO Á Âu sẽ tổng hợp lại những thông tin tổng quan và quan trọng nhất về các thực thể, trình bày một số nội dung đáng chú ý từ các bằng sáng chế dưới một ngôn ngữ dễ hiểu hơn cùng với một vài kỹ thuật SEO để khai thác sức mạnh của khái niệm này.

Entity là gì?

Hãy cùng xem qua định nghĩa chính thức về “entity” trong bằng sáng chế “Question answering using entity references in unstructured data” (tạm dịch: Trả lời truy vấn bằng cách sử dụng các tham chiếu thực thể trong những dữ liệu không cấu trúc) của Google:

“Một thực thể là một sự vật hoặc khái niệm đơn nhất (singular), độc nhất (unique), được xác định rõ ràng (well-defined) và có thể phân biệt được (distinguishable). Ví dụ, thực thể có thể là một người, địa điểm, một vật, ý tưởng, chủ đề, khái niệm trừu tượng, yếu tố cụ thể, những sự vật còn lại đáp ứng được những tiêu chí đó hoặc bất kỳ sự kết hợp nào kể trên. Nói chung, các thực thể bao gồm các sự vật hoặc khái niệm có tính biểu trưng về mặt ngôn ngữ bởi các danh từ. Chẳng hạn, màu sắc “Xanh dương”, thành phố “San Francisco”, và sinh vật huyền ảo “Kỳ lân” đều có thể là các thực thể.”

Một sơ đồ trích ra từ trong bằng sáng chế “Question answering using entity references in unstructured data” (Nguồn: Google)

Ngắn gọn hơn, một thực thể là bất kỳ thứ gì có mức độ phổ biến đủ rộng rãi để người dùng có thể tìm kiếm nó bằng tên. Ví dụ, bạn không nổi tiếng đến nỗi trở thành một thực thể – bạn có thể chỉ là một trong nhiều tác giả khác viết về chủ đề SEO và không ai tìm kiếm bạn bằng một cái tên cả. Nhưng hãy xem Bill Slawki – ông đã được xem là một thực thể nhờ được biết đến rộng rãi là một chuyên gia nghiên cứu các bằng sáng chế của Google, thông qua việc được liên kết, đề cập đến và phỏng vấn khắp nơi trên Internet.

Google nhận diện các entity như thế nào?

Google đang xây dựng cơ sở dữ liệu về thực thể sử dụng 2 quy trình riêng biệt: sao chép lại những thực thể hiện có và khám phá các thực thể mới.

Hiện tại, Google chủ yếu đang sao chép lại các thực thể từ các cơ sở dữ liệu hiện có, chẳng hạn như Wikipedia và IMDB. Nó cho phép Google mở rộng cơ sở dữ liệu của riêng họ khá nhanh, nhưng vẫn đảm bảo độ xác thực vì họ chỉ lấy dữ liệu từ một vài nguồn được xem là đáng tin cậy. Hạn chế ở đây đó là những cơ sở tri thức này có thể “chậm trễ” trong việc bổ sung thêm các thực thể mới và cập nhật các thực thể cũ, vậy nên Google cũng có khả năng sẽ không đưa ra được những nội dung tương thích nhất cho người dùng.

Để giải quyết vấn đề này, Google đã nộp đơn cấp bằng sáng chế cho một vài phương pháp để khám phá các thực thể mới từ những dữ liệu không cấu trúc (unstructured data) sẵn có trên Internet. Một phương pháp trong số đó đề xuất việc sử dụng các thực thể đã biết để xem liệu chúng có mối liên hệ với bất kỳ thực thể nào khác chưa được nhận diện hay không, thông qua cú pháp (syntax) hoặc bằng cách thường xuyên xuất hiện cùng nhau trong cùng một tài liệu. Ví dụ, nếu có nhiều tài liệu đều viết rằng “Lâm Vĩ là một tác giả tại Hướng Nghiệp Á ÂU”, thì nếu Hướng Nghiệp Á Âu là một thực thể được biết đến rộng rãi, thì Google có thể sẽ dần xem xét xem liệu Lâm Vĩ có thể là một thực thể hay không.

Một phương pháp khác đề xuất đo lường giá trị của thực thể (entity value) dựa trên quy mô lĩnh vực của nó (field size), tức là nó sẽ dễ trở thành một thực thể được nhiều người biết đến hơn trong một lĩnh vực “hẹp” hơn là một lĩnh vực “rộng”. Ví dụ, một tác giả sẽ khó trở thành một thực thể trong toàn bộ mảng SEO, nhưng sẽ dễ hơn nhiều nếu tác giả đó muốn trở thành một thực thể trong một nhánh con của lĩnh vực SEO rộng lớn. Chẳng hạn như Bill Slawki là một “thực thể” chuyên về các bằng sáng chế, Marie Haynes là “thực thể” về các hướng dẫn đánh giá chất lượng (Quality Rater Guidelines), và Brian Dean thì nổi tiếng về backlink.

Google lưu trữ các entity như thế nào?

Google duy trì một cơ sở dữ liệu không ngừng được mở rộng với khoảng 5 tỉ thực thể và hơn 500 tỉ các thuộc tính thực thể (entity property). Bảng dưới đây tổng hợp lại các loại thông tin mà Google thu thập về từng thực thể:

Loại dữ liệu	Ví dụ	Diễn giải
Tên (Name)	Californication	Sử dụng các từ ngữ của chính Google, tên là sự thể hiện về mặt ngôn ngữ của thực thể. Nhưng bản thân thực thể sẽ được lưu trữ dưới dạng một ID độc nhất ↓
ID thực thể (Entity ID)	XXXXXX01	Các Unique ID giúp phân biệt các thực thể có cùng tên gọi với nhau. Ví dụ, TV series “Californication” sẽ có ID là IDXXXXXX01, trong khi ID của bài hát “Californication” sẽ là IDXXXXXX02.
Phân loại/lớp (Class)	TV series	Một thực thể có thể thuộc về một hoặc nhiều lớp/lớp phụ khác nhau. Ví dụ, Californication là một TV series, nhưng nó cũng được phân loại là một tác phẩm comedy và drama. Bản thân các lớp (classes) thường cũng chính là các thực thể.
Thuộc tính (Attribute)	13 tháng 08, 2007	Một thực thể có thể có một hoặc nhiều thuộc tính. Ví dụ, tác phẩm “Californication” được ra mắt vào ngày 13 tháng 08, 2007 và kéo dài qua 7 mùa, với David Duchovny đóng chính, dược quay tại California và được đánh giá 57% trên Rotten Tomatoes. Bản thân các thuộc tính (attribute) thường cũng chính là các thực thể.
Mối quan hệ (Relationship)	Ra mắt	Mối quan hệ là cách thức mà một thực thể được kết nối với các thực thể khác. Ví dụ, series “Californication” được ra mắt vào ngày 13 tháng 08, 2007, kéo dài qua 7 mùa và được đóng chính bởi David Duchovny
Độ liên quan (Relevance)	0.84	Điểm số về độ liên quan hay phù hợp (relevance score) đo lường sức mạnh và/hoặc tầm quan trọng của mối tương quan giữa các thực thể. Ví dụ, Google có thể chắc chắn 99% (tương đương 0.99 điểm) rằng Californication là một series phim truyền hình, 74% (0.74) là một tác phẩm hài (comedy), là 36% (0.36) là một tác phẩm chính kịch (drama).

Để dễ hình dung hơn, bạn có thể xem cơ sở dữ liệu về thực thể trông giống như sơ đồ dưới đây, ngoại trừ việc nó phức tạp hơn rất rất nhiều. Trong hình này, các hình oval đại diện cho các thực thể, các hình chữ nhật biểu thị các mối quan hệ và các con số chính là điểm “relevance”:

Sơ đồ biểu diễn mối quan hệ giữa các thực thể cùng với “relevance score” (Nguồn: Internet)

Cách kiểm tra một đối tượng có phải là thực thể hay không

Cách dễ dàng nhất chính là thử tìm kiếm thực thể của bạn trên Google xem trang kết quả có hiển thị bảng thông tin tri thức Knowledge Panel cho thực thể đó hay không:

Knowledge Panel trên SERP là dấu hiện để nhận diện thực thể (Nguồn: Internet)

Một cách tinh vi hơn là sử dụng một công cụ “đào thực thể” (entity mining tool), chẳng hạn như:

https://carlhendy.com/knowledge-graph-search

Với các công cụ này, bạn sẽ nhận được một danh sách bao gồm toàn bộ thực thể mà Google xem là phù hợp với truy vấn của bạn. Lấy ví dụ như Mick Jagger, có khoảng 40 thực thể được Google xem là có liên quan đến một mức độ nào đó với truy vấn này, nhưng bản thân Mick Jagger sẽ có điểm relevance cao nhất là 9,747; trong khi một thực thể khác gần nhất là Bianca Jagger chỉ có điểm relevance là 3,055. Công cụ này cũng cho chúng ta biết được chủng loại (type) của thực thể, chẳng hạn như là “sự vật” (thing), “con người” (person), hay “tổ chức” (organization)…

Kết quả từ một công cụ entity mining tool (Nguồn: Internet)

Và cách cao cấp nhất để kiểm tra xem một đối tượng có phải là thực thể hay không chính là đi đến mã nguồn và sử dụng công cụ Knowledge Graph Search API của Google để xem đoạn code đằng sau thực thể của bạn:

https://developers.google.com/knowledge-graph/reference/rest/v1/?apix=true

Phương pháp này không có nhiều lợi điểm vì nó không thân thiện với người dùng và nó chỉ có thể cung cấp thêm một thông tin duy nhất là Entity ID. Nhưng nếu công cụ ở trên không còn hoạt động được, bạn luôn có thể sử dụng cách làm này:

Sử dụng Knowledge Graph Search API để kiểm tra source code của entity (Nguồn: Internet)

Google sử dụng các entity như thế nào?

Mỗi khi có một truy vấn tìm kiếm có chứa một thực thể, Google sẽ sử dụng cơ sở dữ liệu về thực thể của họ để cải thiện các kết quả tìm kiếm. Nổi bật nhất, Googel sẽ sử dụng các thực thể để thêm vào các bảng thông tin Knowledge Panel trên SERP, đưa ra các gợi ý tìm kiếm và nâng cao mức độ liên quan/phù hợp của những trang được trả về.

Knowledge Panel

Knowledge Panel hay bảng thông tin tri thức giống như một phần thông tin trích lược được đặt ngay ở trên trang SERP. Ngoài tên gọi, hình ảnh và thông tin mô tả về thực thể, Panel thường bao gồm thêm một vài thuộc tính quan trọng nhất của thực thể và thay đổi tùy theo loại thực thể đó là gì:

Google sử dụng entity để đưa ra các Knowledge Panel (Nguồn: Internet)

Đề xuất tìm kiếm trên SERP

Vì Google biết được phân loại của một thực thể, nên hệ thống có thể đưa ra các đều xuất liên quan đến những thực thể khác trong cùng một phân loại đó. Ví dụ, nếu bạn đang tìm kiếm công ty “Arc’teryx”, Google sẽ nhận diện đây là một thương hiệu trang phục khoác ngoài và sẽ hỏi bạn xem có muốn xem thêm những thương hiệu trang phục khoác ngoài khác hay không, chẳng hạn như Patagonia và The North Face:

Google cũng đưa ra các đề xuất tìm kiếm liên quan đến entity (Nguồn: Internet)

Tương tự như thế, bạn có thể tìm kiếm toàn bộ các phân loại của thực thể và xem các gợi ý tìm kiếm được đưa ra trên SERP. Chẳng hạn, dưới đây là kết quả khi người dùng tìm kiếm cụm từ “best action movies” (phim hành động hay nhất), Google đưa ra rất nhiều thực thể được phân loại là phim hành động để bạn có thể lựa chọn:

Các kết quả thực thể khi tìm kiếm về phim hành động (Nguồn: Internet)

Xếp hạng cho các trang

Có lẽ điều quan trọng nhất đó là các thực thể cho phép Google giảm ảnh hưởng của các từ khóa và liên kết dưới vai trò các tín hiệu xếp hạng, và thay vào đó, là xem xét đến ý nghĩa của nội dung. Những gì nó có thể làm là lập bản đồ thực thể trong một mẩu nội dung và xem liệu bản đồ đó có hợp lý hay không, liệu tất cả các thực thể được dự đoán có xuất hiện và kết nối với nhau hay không.

Ví dụ, nếu bạn đang viết một bài viết về các bằng sáng chế của Google (Google patent), thì Google có thể sẽ mong đợi bạn đề cập đến “Bill Slawki” – chuyên gia nghiên cứu về các bằng sáng chế này, cũng như “Văn phòng Bằng sáng chế & Nhãn hiệu Hoa kỳ” (United States Patent & Trademark Office) – nơi các bằng sáng chế được nộp. Về mặt lý thuyết, các trang sử dụng tất cả các thực thể phù hợp, đúng ngữ cảnh sẽ được xếp hạng cao hơn các trang không sử dụng.

Sử dụng entity thế nào trong SEO?

Có một kỳ vọng rằng các thực thể sẽ sớm thay thế vai trò của backlink và từ khóa. Có thể không phải tất cả, nhưng cũng có khả năng là phần lớn. Và hệ thống xếp hạng sẽ trở nên khó nhằn hơn để chinh phục bởi vì Google sẽ có thể phân tích được ngữ cảnh nhiều hơn trước đây – và việc đặt các từ khóa một cách thiếu tự nhiên chắc chắn sẽ bị đánh giá thấp.

Vì thế, nếu bạn muốn chiến lược SEO của mình được an toàn trong tương lai, bạn cần phải bắt đầu xây dựng các thực thể của riêng mình và củng cố mối quan hệ với các thực thể khác trong lĩnh vực mà bạn đang hoạt động. Dưới đây là một số gợi ý bạn có thể thực hiện ngay từ hôm nay:

Xây dựng brand entity (thực thể thương hiệu) của bạn

Việc đưa được thực thể của riêng bạn vào trong cơ sở dữ liệu tri thức Google Knowledge Graph sẽ là một tài sản tuyệt vời đối với chiến lược SEO. Và trong tất cả mọi thứ mà doanh nghiệp của bạn có, thương hiệu có lẽ là đối tượng dễ dàng chuyển thành thực thể nhất (trừ khi bạn có một vài người rất nổi tiếng trong đội ngũ của mình).

Hãy đảm bảo rằng bạn phát triển độ nhận biết cho thương hiệu (brand awareness) thông qua các hoạt động SEO nói riêng và marketing nói chung. Đưa ra một tên thương hiệu độc đáo, có định vị rõ ràng (ví dụ như Arc’teryx là một công ty may mặc chuyên về dòng thời trang khoác ngoài), nhất quán trong các đặc điểm của thương hiệu (địa điểm, ngày thành lập, được sáng lập bởi ai…), tạo và thông tin doanh nghiệp trên những trang danh bạ quan trọng trong thị trường mà bạn đang hướng đến, quảng bá thương hiệu của bạn và tìm cách có được các lượt đề cập (dù không được trỏ link về cũng không sao) từ các thực thể khác trong lĩnh vực của bạn.

Sử dụng đánh dấu Schema

Nếu như bạn không muốn đợi Google tìm thấy các thực thể trên website của mình, bạn có thể “đẩy nhanh” quá trình này bằng cách sử dụng các dữ liệu có cấu trúc (structured data). Nó cung cấp một thư viện khổng lồ bao gồm các thẻ (tag) – có thể được sử dụng để thông báo cho Google biết rằng những phần nào trong nội dung của bạn là thực thể và đâu là các thuộc tính của thực thể (entity attribute). Cụ thể hơn thì Schema local business (doanh nghiệp địa phương) có thể được sử dụng để kết nối doanh nghiệp của bạn với các thực thể ở gần trong khu vực địa lý và gia tăng sự thống trị của bạn đối với các tìm kiếm liên quan đến địa điểm tại địa phương. Các markup như organization, person và author có thể được sử dụng thêm để tạo mối quan hệ giữa các thực thể trên website của bạn và profile của họ trên những website khác.

Xác nhận trang GMB profile

Xác thực quyền sở hữu, tối ưu hóa và duy trì trang Google My Business (GMB) là điều quan trọng nhất đối với bất kỳ chiến lược Local SEO nào. Nó không nhất thiết biến doanh nghiệp của bạn thành một thực thể, nhưng nó sẽ hỗ trợ tối đa cho việc đó.

Google sẽ sử dụng trang thông tin này để tìm hiểu các thông tin đáng tin cậy về doanh nghiệp và tạo ra sự kết nối giữa doanh nghiệp của bạn và các thực thể khác tại đại phương và điều này sẽ mang lại sức mạnh đáng kinh ngạc cho thứ hạng tại địa phương. Vậy nên kết quả cũng giống với khi doanh nghiệp của bạn trở thành một thực thể, chỉ là về mặt kỹ thuật thì cơ sở dữ liệu của doanh nghiệp địa phương sẽ tách biệt với cơ sở dữ liệu tri thức Knowledge Graph.

Nghiên cứu các thực thể cho content của bạn

Mỗi khi bạn lên kế hoạch cho nội dung mới, hãy đảm bảo rằng nó đều bao gồm các thực thể khác mà Google xem là có liên quan với chủ đề của bạn. Dưới đây là một số cách bạn có thể nghiên cứu và khám phá về các thực thể này:

Google Search

Đầu tiên, chúng ta đều biết rằng Google sử dụng các mối liên hệ giữa các thực thể để cải thiện kết quả tìm kiếm. Vậy nên một việc chúng ta có thể làm đó là thử gõ vào Google chủ đề chính của nội dung và xem những đề xuất về thực thể nào sẽ xuất hiện.

Ví dụ, nếu bạn đang xây dựng một bài viết về chủ đề “best down jackets for men” (áo khoác đệm lông tốt nhất dành cho nam), bạn sẽ gõ vào Google cụm từ này và tham khảo thử mục “People Also Ask”) để có thêm ý tưởng về các câu hỏi có liên quan:

Tìm kiếm ý tưởng từ mục “People Also Ask” (Nguồn: Internet)

Tiếp đến, hãy cuộn xuống phía dưới cùng của trang SERP để xem các tìm kiếm có liên quan:

Các tìm kiếm có liên quan trên SERP (Nguồn: Internet)

Sau đó, chuyển sang tab tìm kiếm bằng hình ảnh “Images” và lướt xem các từ bổ nghĩa cho tìm kiếm (search modifier) được đề xuất:

Các modifier trong tab “Images” cũng là một nguồn ý tưởng cho các entity (Nguồn: Internet)

Wikipedia

Chúng ta đều biết rằng Google sử dụng Wikipedia như là một trong những nguồn cho cơ sở dữ liệu về thực thể, vậy nên bạn hoàn toàn cũng có thể sử dụng Wikipedia để tra cứu các thuộc tính của thực thể và tìm kiếm các thực thể có liên quan khác. Ví dụ, nếu bạn định viết một bài viết về Mick Jagger, Wikipedia sẽ gợi ý bạn nên đề cập đến một nhân vật tên là “Keith Richards”:

Wikipedia sẽ đưa ra các gợi ý cho bạn về mối liên hệ giữa các entity (Nguồn: Internet)

Natural Language API

Và cuối cùng, chúng ta có một công cụ xử lý ngôn ngữ tự nhiên của Google – Natural Language API:

https://cloud.google.com/natural-language/

Công cụ này xử dụng các công nghệ mới để xử lý văn bản và nhận diện các thực thể có trong văn bản đó. Bạn có thể sao chép lại những nội dung được xếp hạng cao nhất của các đối thủ, nhập nó vào trong công cụ NLP API này, và khám phá những thực thể nổi bật nhất được đề cập đến trong content, giống như dưới đây:

Kết quả xử lý từ công cụ NLP API (Nguồn: Internet)

Công cụ trên có thể khám phá được hàng trăm thực thể đối với mỗi văn bản, nhưng chỉ một vài trong số chúng có điểm số “salience score” đáng kể (đây là điểm số cho thấy mức độ quan trọng hay trọng tâm của một thực thể trong toàn bộ văn bản, càng gần 1 thì thực thể càng quan trọng). Hãy lấy một vài thực thể nổi bật nhất từ một số đối thủ của bạn, bổ sung chúng vào những gì bạn đã khám phá được từ Wikipedia và Google Search, và thế là bạn đã có cho mình một danh sách chắc chắn về các thực thể mà bạn sẽ muốn bao gồm trong nội dung của mình.

Tổng kết

Bạn có thể tư duy về các thực thể như là một mô hình kỹ thuật số của thế giới thực và khám phá xem nó sẽ được vận hành như thế nào trong lĩnh vực SEO. Có thể là mô hình này sẽ hiệu quả đến mức chúng ta không cần làm SEO để giải thích cho các máy tìm kiếm về nội dung của mình nữa. Hoặc nó cũng có thể trở nên cực kỳ phức tạp và chúng ta phải sử dụng hàng tỉ dữ liệu có cấu trúc để giúp Google hiểu được các thực thể. Nhưng dù thế nào thì chắc chắn là tầm quan trọng của các thực thể chỉ có ngày một tăng và những ai bắt đầu khai thác chúng ngay từ hôm nay sẽ chiếm được ưu thế chiến thắng trong dài hạn.