Loại trừ một trang web hoặc trang web khỏi các công cụ tìm kiếm Sử dụng một tệp tin văn bản Robots

Bạn có thể sử dụng tệp văn bản rô-bốt để chặn một nhện công cụ tìm kiếm không thu thập dữ liệu trang Web hoặc một phần của trang web của bạn. Ví dụ, bạn có thể có một phiên bản phát triển của trang Web nơi bạn làm việc về những thay đổi và bổ sung để kiểm tra chúng trước khi chúng trở thành một phần của trang Web trực tiếp của bạn. Bạn không muốn các công cụ tìm kiếm lập chỉ mục bản sao này "đang tiến hành" của trang web của bạn bởi vì nó sẽ gây ra xung đột nội dung trùng lặp với trang Web thực của bạn. Bạn cũng sẽ không muốn người dùng tìm thấy các trang đang trong tiến trình của bạn. Vì vậy, bạn cần chặn các công cụ tìm kiếm không nhìn thấy những trang đó.

Công việc của robot văn bản là cung cấp cho các công cụ tìm kiếm hướng dẫn về việc không phải là để nhện trong trang Web của bạn. Đây là một tập tin văn bản đơn giản mà bạn có thể tạo ra bằng cách sử dụng một chương trình như Notepad, và sau đó lưu với các robot tên tập tin. txt. Đặt tệp tin vào thư mục gốc của trang Web của bạn (ví dụ www. yourdomain . Com / robots.txt), đây là nơi mà nhện muốn tìm kiếm. Trong thực tế, bất cứ khi nào nhện công cụ tìm kiếm đến trang web của bạn, điều đầu tiên họ tìm kiếm là tệp tin rô bốt của bạn. Đây là lý do tại sao bạn nên luôn có tệp văn bản rô bốt trên trang web của mình, ngay cả khi nó trống. Bạn không muốn ấn tượng đầu tiên của nhện trên trang web của bạn là lỗi 404 (lỗi xảy ra khi không thể tìm thấy tệp).

Với tệp văn bản rô-bốt, bạn có thể loại trừ các trang, thư mục hoặc toàn bộ trang web. Bạn phải viết mã HTML chỉ vì vậy, hoặc nhện sẽ bỏ qua nó. Cú pháp lệnh bạn cần sử dụng đến từ Giao thức Loại trừ Robots (REUTC), là một giao thức chuẩn cho tất cả các trang Web. Và nó là rất chính xác; chỉ cho phép các lệnh cụ thể, và chúng phải được viết chính xác với các vị trí cụ thể, chữ hoa / chữ thường, dấu chấm câu và khoảng cách. Tệp này là nơi bạn không muốn quản trị viên web của mình sáng tạo.

User-agent: * Disallow: / personal /

Tệp văn bản rô-bốt này cho biết tất cả các robot của công cụ tìm kiếm mà họ được chào đón để thu thập dữ liệu bất cứ nơi nào trên trang Web của bạn

trừ

cho thư mục có tên / personal /. Trước khi viết một dòng lệnh (như Disallow: / personal /), trước tiên bạn phải xác định (các) robot nào bạn đang định vị. Trong trường hợp này, User-agent đường dẫn: * chỉ định tất cả các robot vì nó sử dụng một dấu sao, được biết đến như là ký tự ký tự đại diện

vì nó đại diện cho bất kỳ ký tự nào. Nếu bạn muốn đưa ra các hướng dẫn khác nhau cho các công cụ tìm kiếm khác nhau, như nhiều trang web khác, hãy viết các dòng User-agent riêng biệt theo sau các dòng lệnh cụ thể của chúng.Trong mỗi User-agent: line, bạn sẽ thay thế ký tự dấu hoa thị (*) bằng tên của một robot cụ thể: User-agent: Googlebot sẽ nhận được sự quan tâm của Google.

Tác nhân người dùng: Slurp sẽ nói về Yahoo!.

User-agent: MSNBot sẽ định vị Microsoft Live Search.

Lưu ý rằng nếu tệp văn bản của robot của bạn có User-agent: * các hướng dẫn cũng như một User-agent khác: dòng xác định một robot cụ thể, robot cụ thể theo các lệnh mà bạn đã đặt nó thay vì

của hướng dẫn chung hơn. Bạn chỉ có thể nhập một vài lệnh khác vào một robot. tệp tin txt: Loại trừ toàn bộ trang web.

Để loại trừ robot khỏi toàn bộ máy chủ, bạn sử dụng lệnh:

Disallow: / Lệnh này thực sự loại bỏ tất cả các trang Web của trang web khỏi chỉ mục tìm kiếm, do đó hãy cẩn thận
```
không > để làm điều này trừ khi đó là những gì bạn thực sự muốn.
```
Loại trừ thư mục. (Một lời cảnh báo - thường thì bạn muốn chọn lọc nhiều hơn là loại trừ toàn bộ thư mục.) Để loại trừ một thư mục (bao gồm tất cả các nội dung và thư mục con), đặt nó vào trong slashes: Disallow: / cá nhân /
Loại trừ một trang. Bạn có thể viết lệnh để loại trừ một trang cụ thể. Bạn chỉ sử dụng dấu gạch chéo ở đầu và phải bao gồm phần mở rộng tệp ở cuối. Dưới đây là ví dụ:
```
Disallow: / private-file. htm
```
Chỉ đạo nhện tới bản đồ trang web của bạn. Ngoài Disallow:, một lệnh hữu ích khác cho nỗ lực SEO của bạn chỉ ra nơi mà robot có thể tìm thấy
```
bản đồ trang web
```
của bạn - trang chứa các liên kết trong tổ chức trang web của bạn, như một bảng mục lục: Sơ đồ trang web: // www. tên miền của bạn. com / sitemap. xml Cần lưu ý rằng ngoài các lệnh được liệt kê trước đây, Google cũng nhận ra Cho phép. Điều này chỉ áp dụng cho Google và có thể gây nhầm lẫn cho các động cơ khác, vì vậy bạn nên tránh sử dụng nó. Bạn luôn nên đưa vào cuối tệp tin rô-bốt của mình một tệp tin Sơ đồ trang: dòng lệnh. Điều này đảm bảo rằng các robot tìm thấy bản đồ trang web của bạn, giúp họ điều hướng đầy đủ hơn thông qua trang web của bạn để trang web của bạn được lập chỉ mục nhiều hơn.

Một vài lưu ý về cú pháp của tệp tin văn bản của robot:

Các lệnh này phân biệt chữ hoa chữ thường, do đó bạn cần một D vốn in Disallow.

Luôn có khoảng trống sau dấu hai chấm sau lệnh.

Để loại trừ toàn bộ thư mục, hãy đặt dấu gạch chéo

sau
cũng như
trước tên thư mục. Nếu bạn đang chạy trên máy UNIX, mọi thứ đều phân biệt chữ hoa chữ thường.
Tất cả các tệp không bị loại trừ cụ thể có sẵn cho spidering và lập chỉ mục. Để xem danh sách đầy đủ các lệnh, tên robot, và hướng dẫn về cách viết các tệp văn bản của robot, hãy truy cập Web Robot Pages. Như một biện pháp bảo vệ khác, hãy làm cho nó trở thành một phần của việc bảo trì trang web hàng tuần của bạn để kiểm tra tệp văn bản của robot. Đó là một chuyển đổi mạnh mẽ bật / tắt cho các nỗ lực SEO của trang web của bạn mà nó xứng đáng để peek thường xuyên để đảm bảo rằng nó vẫn "bật" và hoạt động đúng.