Image

[2.6] SEO 101 - CỖ MÁY TÌM KIẾM INDEX TRANG CỦA BẠN NHƯ THẾ NÀO ?NẾU TRANG BỊ XÓA KHỎI INDEX THÌ SAO ?

Vâng, các trang có thể bị xóa khỏi index. Một trong những lý do chính tại sao URL bị xóa khỏi index gồm có:

+ URL khi click vào thì dẫn đến lỗi 4xx hoặc 5xx – Điều này có thể là vô tình (trang bị chuyển và điều hướng 301 chưa được thiết lập) hoặc có chủ ý (trang bị xóa và lỗi 404 tồn tại để loại nó ra khỏi index).

+ URL không có thêm tag noindex – Tag này có thể được thêm bởi chủ sở hữu website để chỉ dẫn cỗ máy tìm kiếm xóa trang từ index.

+ URL bị phạt vì vi phạm điều khoản của cỗ máy tìm kiếm, và kết quả bị xóa khỏi index.

+ URL chặn crawling với yêu cầu đăng nhập bằng mật khẩu bắt buộc trước khi người dùng muốn truy cập vào trang.

Nếu bạn tin rằng một trang trên website của bạn đã từng được Google index nhưng giờ tìm lại không thấy, bạn có thể dùng URL Inspection tool để tìm hiểu về trạng thái của trang, hoặc dùng Fetch as Google có chức năng “Request Indexing” để gửi các link URL riêng để index.

CỖ MÁY TÌM KIẾM INDEX TRANG CỦA BẠN NHƯ THẾ NÀO ?

Điều hướng robots meta

Các điều hướng meta (còn gọi là meta tags, thẻ meta – Web1trieudong.com chú giải) là các chỉ dẫn bạn đưa ra cho các cỗ máy tìm kiếm xem xét trang web của bạn.

Bạn có thể nói các crawlers của cỗ máy tìm kiếm “đừng index trang này trong kết quả tìm kiếm” hoặc “đừng bỏ qua bất kỳ link nào trên các link của trang”. Các chỉ dẫn này được thực thi thông qua Robots Meta Tags trong mục < head > ở trang HTML (thường dùng) hoặc thông qua X-Robots-Tag trong HTTP header.

 

Robots meta tag

Robots meta tag có thể được dùng trong phần

của HTML trong website. Bạn có thể bỏ nó ra hoặc chỉ định nó với các cỗ máy tìm kiếm. Đây là cách thức tốt đi kèm với những gì bạn muốn cỗ máy tìm kiếm tìm thấy.

Index/noindex : thông báo cho các cỗ máy tìm kiếm biết trang nào được quét (Crawled) và lưu nó lại trong chỉ mục index của cỗ máy tìm kiếm. Nếu bạn dùng “noindex”, bạn đang thông báo với crawlers rằng bạn muốn trang của bạn không được thấy trong kết quả tìm kiếm. Mặc định, các cỗ máy tìm kiếm có thể phán đoán được các trang chúng có thể index, vì thế, bạn không cần để chữ “index” cũng được.

 

Cách Google index trang của bạn

 

Follow/nofollow: báo cho cỗ máy tìm kiếm rõ các link nào trên trang được follow hoặc nofollow (cho phép đi theo hoặc chặn đi theo). Các kết quả “follow” có nghĩa là bot sẽ lần theo link đó vào trang của bạn và đi qua các link tương ứng thông qua các URLs. Hoặc, nếu bạn để “nofollow”, các cỗ máy tìm kiếm sẽ không lần theo hoặc đi theo các link tương ứng thông qua các link trên trang. Mặc định, tất cả các trang được gán cho thuộc tính follow.

Khi bạn dùng: nofollow tức là bạn đang cố gắng chặn truy cập trang cho botGoogle cũng như cản việc quét, lần dõi theo link trên trang.

Noarchive : được dùng để ngăn chặn cỗ máy tìm kiếm từ việc sao lưu một bản cache copy của trang. Mặc định, cỗ máy tìm kiếm sẽ lưu một bản copy của tất cả các trang mà chúng index, người dùng có thể xem bản sao lưu này trên cache link trong kết quả tìm kiếm.

Khi bạn sử dụng noarchive: Nếu bạn đang có 1 website thương mại điện tử và giá bán hàng hóa thay đổi thường xuyên, bạn nên thêm tag noarchive vào để ngăn ngừa các cỗ máy tìm kiếm lưu lại giá đã cũ, chưa được cập nhật mới về giá.

Dưới đây là một ví dụ về thẻ meta, no index, nofollow:

Ví dụ này nói đến việc hạn chế / ngăn chặn cỗ máy tìm kiềm index trang và không lần theo các link trên trang. Nếu bạn muốn nhiều crawlers không ghi nhận, như GoogleBot và Bing chẳng hạn, bạn cứ dùng nhiều tags trên chặn bot lại.

< !DOCTYPE html >< html >< head >< meta name="robots" content="noindex, nofollow" />< body >...< /html >

X-robots-tag

Thẻ X-robots được dùng trong HTTP Header của URL website của bạn, cung cấp nhiều sự linh hoạt và đa chức năng hơn thẻ meta tag nếu bạn muốn block cỗ máy tìm kiếm theo một mức độ riêng theo một cấu trúc riêng, chặn các tập tin không phải HTML, và áp dụng các noindex cho 1 vùng riêng.

Ví dụ, bạn có thể dễ dàng loại bỏ hoàn toàn các folder hoặc các tập tin (ví dụ: moz.com/no-bake/old-recipes-to-noindex):

< Files ~ “\/?no\-bake\/.*” > Header set X-Robots-Tag “noindex, nofollow” </Files

Hoặc theo loại tập tin (PDF chẳng hạn):

< Files ~ “\.pdf$” > Header set X-Robots-Tag “noindex, nofollow” </Files

Để có thêm nhiều thông tin hơn về các thẻ Meta Robot Tags, xem thêm Google’s Robots Meta Tag Specifications.

Việc hiểu rõ các cách thức khác nhau có thể ảnh hưởng đến việc crawling và indexing, giúp bạn tránh các lỗi thông thường gây ngăn cản các trang quan trọng trong việc tìm kiếm.

 


Thiết kế bởi @Webdeponline.vn | Tags: Website chuẩn SEO, giá rẻ, giao diện đẹp, website giá 1 triệu đồng

Web 1 triệu đồng