Image

[2.3] SEO 101 - TÌM HIỂU ROBOTS.TXT



Tập tin robots.txt được đặt tại vị trí thư mục gốc (root) của website, ví dụ ta gõ: domain.com/robots.txt thì sẽ chỉ ra các phần của trang mà cỗ máy tìm kiếm được quyền và không được quyền quét qua, cũng như tốc độ mà các crawler sẽ quét, thông qua các chỉ dẫn riêng cho robots.txt (ta chỉ định quét chỗ nào).

GOOGLE LÀM GÌ VỚI CÁC FILE ROBOTS.TXT ?

Nếu Googlebot không tìm ra tập tin robots.txt trên trang của bạn, nó vẫn tiến hành crawl trang của bạn.

Nếu Googlebot phát hiện ra tập tin robots.txt trên trang của bạn, nó sẽ chui vào và tiến hành thực thi các gợi ý riêng của bạn và tiến hành crawl trang của bạn.

Nếu Googlebot gặp 1 lỗi nào đó trong quá trình truy cập vào robots.txt và không rõ ghi nhận hay không, nó sẽ không quét qua trang của bạn (trường hợp này bạn chặn bot GoogleWeb1trieudong.com chú giải)

 

 

Image

Robots.txt - một cách thức quan trọng để cho botGoogle ghi nhận và quản lý ghi nhận 

 

Không phải tất cả các robot web đều được phép thực thi qua robots.txt. Có 1 số thứ phải chặn nó lại, ví dụ nó vào web email hay các thông tin riêng tư thì chúng ta phải block nó. Tốt hơn hết là chúng ta block nó và để Noindex cho các trang này, đóng chúng lại riêng ở các trang hay các form đăng nhập thay vì bỏ chúng hay ghi chỉ định không cho truy cập trong tập tin robots.txt.

Nếu bạn muốn tìm hiểu sâu về chỉ định cách thức tìm kiếm và truy cập website cho bot Google thông quan robots.txt, bạn có thể xem bài viết riêng về mục này. Chúng tôi sẽ nêu rõ cách bạn viết và thiết lập ra sao là đúng. Điều này rất hữu dụng và bạn cần quan tâm kỹ càng, vì nếu viết sau cấu trúc có thể dẫn đến website bị chặn không cho crawler vào quét. Xem bài viết ở đây.

CHỈ ĐỊNH CÁC URL TRONG CỖ MÁY TÌM KIẾM

Một số website (hầu hết là các trang bán hàng, thương mại điện tử) lặp lại nội dung giống nhau, tạo ra nhiều URL khác nhau bằng việc gắn thêm vài chỉ số vào URLs. Nếu bạn mua hàng online, bạn quan tâm đến việc tìm kiếm thông qua các bộ lọc. Chẳng hạn, bạn tìm từ “shoes” trên Amazon, và sau đó lọc tìm kiếm nó theo size, màu và kiểu dáng. Khi đó, bạn thấy link URL có sự thay đổi nhỏ:

Giống thế này đây:

https://www.example.com/products/women/dresses/green.htm

https://www.example.com/products/women?category=dresses&color=green

https://example.com/shopindex.php?product_id=32&highlight=green+dress&cat_id=1&sessionid=123$affid=43

Vậy làm thế nào để Google biết cái link URL nào thì đúng cho người dùng bây giờ ? Google thực hiện vài thứ để nhận diện ra URL quan trọng có liên quan, nhưng bạn có thể sử dụng URL Parameters feature (các tham số đi kèm) khi Google Search Console để báo Google cần tìm như thế nào là chính xác. Nếu bạn báo Googlebot rằng “crawl không có URLs với đuôi _______tham số”, sau đó bạn yêu cầu là đừng có hiện nội dung này trong Googlebot, có thể dẫn đến kết quả là các trang này bị xóa khỏi kết quả tìm kiếm.

Ở đây, bạn muốn Googlebot bỏ qua mớ trang trùng lặp có chứa tham số, chứ không phải là các trang này không nên được index.

 

CÁC CRAWLER CÓ THỂ TÌM KIẾM TẤT CẢ NỘI DUNG QUAN TRỌNG CỦA BẠN KHÔNG ?

Bây giờ chúng ta sẽ biết một số mẹo để giúp các crawlers của các cỗ máy tìm kiếm tránh xa các thông tin không quan trọng, chúng ta cần hiểu về tối ưu hóa để giúp Googlebot tìm ra đâu là các trang quan trọng.

Đôi khi 1 cỗ máy tìm kiếm có thể tìm ra các phần của site thông qua crawling, nhưng một số trang khác hoặc các mục khác lại không được ghi nhận. Giờ thì chúng ta phải làm thế nào để cỗ máy tìm kiếm có thể phát hiện các nội dung, chứ không phải chúng chỉ ghi nhận trang chủ mà thôi.

 


Thiết kế bởi @Webdeponline.vn | Tags: Website chuẩn SEO, giá rẻ, giao diện đẹp, website giá 1 triệu đồng

Web 1 triệu đồng