Hướng dẫn cài đặt robots.txt

I. Ý nghĩa của File Robots.txt

Công cụ tìm kiếm (SE) thường xuyên ghé thăm Website và từng danh mục, nội dung trong mọi trang. Mọi nội dung bạn đưa lên Website đều được nạp vào tìm kiếm
Robots.txt là một văn bản (không html) đặt trên trang web để điều khiển các hoạt động đánh chỉ mục (index) của SE: cho phép hoặc không cho phép các robot tìm kiếm đến.
Các trường hợp không nên để SE đánh chỉ mục:

  • Những thư mục riếng tư "nhạy cảm" của bạn trên Website bạn cũng không muốn ai thấy.
  • Những nội dung trùng lặp: là Những nội dung có thể có ích cho người đọc nhưng lại bị trùng lặp với một site nào đó đã được index.
  • Tối ưu băng thông tiết kiệm nhất mà không ảnh hưởng tới Website.
robot

II. Cài đặt và cấu hình file Robots.txt

1. Cách tạo và vị trí đặt file robots.txt:

- Dùng notepad hay bất cứ chương trình nào tạo file, sau đó đổi tên file là robots.txt.
- Đặt ở thư mục gốc của website. (http:/tatthanh.com.vn/robots.txt)
Cấu trúc của một robots.txt là khá đơn giản (và hầu như không linh hoạt). Về cơ bản, cú pháp như sau:
User-agent:   đối tượng bot được chấp nhận, vì hiện tại có rất nhiều bot như Googlebot (Google), Googlebot Image, Bingbot, Yahoo Slurp, Yandex .Ở đây sử dụng dấu * nghĩa là cho phép mọi loại bot truy cập.
Disallow/Allow: URL muốn chặn/cho phép
                     *:  Đại diện cho tất cả
Ví dụ: robots.txt của site: http:/tatthanh.com.vn/robots.txt
User-Agent: *
Disallow: /admin.aspx
Disallow: /thiet-ke-website-tron-goi.htm


Trong đó:
      User-agent: * (Cho phép tất cả các SE được chấp nhận)
      Disallow: /admin.aspx (Chặn lại liên kết http://tatthanh/admin.aspx)
      Disallow: /thiet-ke-website-tron-goi.htm (Chặn lại liên kết http://tatthanh.com.vn/thiet-ke-website-tron-goi.htm )

2. Những cú pháp thông dụng

- Cho phép dò và index toàn bộ trang và các thư mục, các file
Allow: /
 – Chặn không cho phép bot truy cập và index toàn bộ
Disallow: /
- Chặn toàn bộ một thư mục và các file, thư mục con trong nó
Disallow: /abc/
- Chặn một trang cố định
Disallow: /abc.html
- Chặn một loại file cố định từ một bot của công cụ tìm kiếm
User-agent: Googlebot
Disallow: /*.doc$ (thay doc bằng jpg hoặc bất kì file nào muốn chặn)
- Chặn một hình không cho Googlebot-Image index
User-agent: Googlebot-Image
Disallow: /abc/def.jpg
- Chặn không cho một bot bất kì truy cập:
User-agent: Googlebot
Disallow: /

3. Lưu ý khi sử dụng và tạo file Robots.txt

  • Phân biệt chữ hoa, chữ thường
  • Không được viết thừa hoặc thiếu khoảng trắng
  • Mỗi lệnh viết trên một dòng
  • Không tự ý thêm các ký tự đặc biệt dễ gây nhầm lẫn cho bot
  • Hết sức thận trọng khi sử dụng
  • Kiểm tra thường xuyên file robots.txt
========&&&&&==========
 
---SỞ HỮU WEBSITE  ĐẲNG CẤP – ĐỪNG BỎ PHÍ CƠ HỘI CỦA BẠN!---

Mr Thắng - Yahootuvan_tatthanh -  EMAILlienhe@tatthanh.com.vn
 HOTLINE0988.56.59.56 - 04.6251.0556

Các dịch vụ Tất Thành cung cấp: