Trang Chủ Xã hội Truyền thông Loại trừ một trang web hoặc trang web khỏi các công cụ tìm kiếm Sử dụng một tệp tin văn bản Robots

Loại trừ một trang web hoặc trang web khỏi các công cụ tìm kiếm Sử dụng một tệp tin văn bản Robots

Video: 6 tính năng ẩn cực hay trên Galaxy S9 mà Samsung không nói cho bạn! 2025

Video: 6 tính năng ẩn cực hay trên Galaxy S9 mà Samsung không nói cho bạn! 2025
Anonim

Bạn có thể sử dụng tệp văn bản rô-bốt để chặn một nhện công cụ tìm kiếm không thu thập dữ liệu trang Web hoặc một phần của trang web của bạn. Ví dụ, bạn có thể có một phiên bản phát triển của trang Web nơi bạn làm việc về những thay đổi và bổ sung để kiểm tra chúng trước khi chúng trở thành một phần của trang Web trực tiếp của bạn. Bạn không muốn các công cụ tìm kiếm lập chỉ mục bản sao này "đang tiến hành" của trang web của bạn bởi vì nó sẽ gây ra xung đột nội dung trùng lặp với trang Web thực của bạn. Bạn cũng sẽ không muốn người dùng tìm thấy các trang đang trong tiến trình của bạn. Vì vậy, bạn cần chặn các công cụ tìm kiếm không nhìn thấy những trang đó.

Công việc của robot văn bản là cung cấp cho các công cụ tìm kiếm hướng dẫn về việc không phải là để nhện trong trang Web của bạn. Đây là một tập tin văn bản đơn giản mà bạn có thể tạo ra bằng cách sử dụng một chương trình như Notepad, và sau đó lưu với các robot tên tập tin. txt. Đặt tệp tin vào thư mục gốc của trang Web của bạn (ví dụ www. yourdomain . Com / robots.txt), đây là nơi mà nhện muốn tìm kiếm. Trong thực tế, bất cứ khi nào nhện công cụ tìm kiếm đến trang web của bạn, điều đầu tiên họ tìm kiếm là tệp tin rô bốt của bạn. Đây là lý do tại sao bạn nên luôn có tệp văn bản rô bốt trên trang web của mình, ngay cả khi nó trống. Bạn không muốn ấn tượng đầu tiên của nhện trên trang web của bạn là lỗi 404 (lỗi xảy ra khi không thể tìm thấy tệp).

Với tệp văn bản rô-bốt, bạn có thể loại trừ các trang, thư mục hoặc toàn bộ trang web. Bạn phải viết mã HTML chỉ vì vậy, hoặc nhện sẽ bỏ qua nó. Cú pháp lệnh bạn cần sử dụng đến từ Giao thức Loại trừ Robots (REUTC), là một giao thức chuẩn cho tất cả các trang Web. Và nó là rất chính xác; chỉ cho phép các lệnh cụ thể, và chúng phải được viết chính xác với các vị trí cụ thể, chữ hoa / chữ thường, dấu chấm câu và khoảng cách. Tệp này là nơi bạn không muốn quản trị viên web của mình sáng tạo.

User-agent: * Disallow: / personal /

Tệp văn bản rô-bốt này cho biết tất cả các robot của công cụ tìm kiếm mà họ được chào đón để thu thập dữ liệu bất cứ nơi nào trên trang Web của bạn

trừ

cho thư mục có tên / personal /. Trước khi viết một dòng lệnh (như Disallow: / personal /), trước tiên bạn phải xác định (các) robot nào bạn đang định vị. Trong trường hợp này, User-agent đường dẫn: * chỉ định tất cả các robot vì nó sử dụng một dấu sao, được biết đến như là ký tự ký tự đại diện

vì nó đại diện cho bất kỳ ký tự nào. Nếu bạn muốn đưa ra các hướng dẫn khác nhau cho các công cụ tìm kiếm khác nhau, như nhiều trang web khác, hãy viết các dòng User-agent riêng biệt theo sau các dòng lệnh cụ thể của chúng.Trong mỗi User-agent: line, bạn sẽ thay thế ký tự dấu hoa thị (*) bằng tên của một robot cụ thể: User-agent: Googlebot sẽ nhận được sự quan tâm của Google.

Tác nhân người dùng: Slurp sẽ nói về Yahoo!.

User-agent: MSNBot sẽ định vị Microsoft Live Search.

Lưu ý rằng nếu tệp văn bản của robot của bạn có User-agent: * các hướng dẫn cũng như một User-agent khác: dòng xác định một robot cụ thể, robot cụ thể theo các lệnh mà bạn đã đặt nó thay vì

của hướng dẫn chung hơn. Bạn chỉ có thể nhập một vài lệnh khác vào một robot. tệp tin txt: Loại trừ toàn bộ trang web.

Để loại trừ robot khỏi toàn bộ máy chủ, bạn sử dụng lệnh:

  • Disallow: / Lệnh này thực sự loại bỏ tất cả các trang Web của trang web khỏi chỉ mục tìm kiếm, do đó hãy cẩn thận

    không > để làm điều này trừ khi đó là những gì bạn thực sự muốn.
    

    Loại trừ thư mục. (Một lời cảnh báo - thường thì bạn muốn chọn lọc nhiều hơn là loại trừ toàn bộ thư mục.) Để loại trừ một thư mục (bao gồm tất cả các nội dung và thư mục con), đặt nó vào trong slashes: Disallow: / cá nhân /

  • Loại trừ một trang. Bạn có thể viết lệnh để loại trừ một trang cụ thể. Bạn chỉ sử dụng dấu gạch chéo ở đầu và phải bao gồm phần mở rộng tệp ở cuối. Dưới đây là ví dụ:

    Disallow: / private-file. htm
    
  • Chỉ đạo nhện tới bản đồ trang web của bạn. Ngoài Disallow:, một lệnh hữu ích khác cho nỗ lực SEO của bạn chỉ ra nơi mà robot có thể tìm thấy

    bản đồ trang web
    
  • của bạn - trang chứa các liên kết trong tổ chức trang web của bạn, như một bảng mục lục: Sơ đồ trang web: // www. tên miền của bạn. com / sitemap. xml Cần lưu ý rằng ngoài các lệnh được liệt kê trước đây, Google cũng nhận ra Cho phép. Điều này chỉ áp dụng cho Google và có thể gây nhầm lẫn cho các động cơ khác, vì vậy bạn nên tránh sử dụng nó. Bạn luôn nên đưa vào cuối tệp tin rô-bốt của mình một tệp tin Sơ đồ trang: dòng lệnh. Điều này đảm bảo rằng các robot tìm thấy bản đồ trang web của bạn, giúp họ điều hướng đầy đủ hơn thông qua trang web của bạn để trang web của bạn được lập chỉ mục nhiều hơn.

Một vài lưu ý về cú pháp của tệp tin văn bản của robot:

Các lệnh này phân biệt chữ hoa chữ thường, do đó bạn cần một D vốn in Disallow.

Luôn có khoảng trống sau dấu hai chấm sau lệnh.

Để loại trừ toàn bộ thư mục, hãy đặt dấu gạch chéo

  • sau

  • cũng như

  • trước tên thư mục. Nếu bạn đang chạy trên máy UNIX, mọi thứ đều phân biệt chữ hoa chữ thường.

  • Tất cả các tệp không bị loại trừ cụ thể có sẵn cho spidering và lập chỉ mục. Để xem danh sách đầy đủ các lệnh, tên robot, và hướng dẫn về cách viết các tệp văn bản của robot, hãy truy cập Web Robot Pages. Như một biện pháp bảo vệ khác, hãy làm cho nó trở thành một phần của việc bảo trì trang web hàng tuần của bạn để kiểm tra tệp văn bản của robot. Đó là một chuyển đổi mạnh mẽ bật / tắt cho các nỗ lực SEO của trang web của bạn mà nó xứng đáng để peek thường xuyên để đảm bảo rằng nó vẫn "bật" và hoạt động đúng.

Loại trừ một trang web hoặc trang web khỏi các công cụ tìm kiếm Sử dụng một tệp tin văn bản Robots

Lựa chọn của người biên tập

Bạn nên biết gì về ngày chia cổ tức cho kỳ thi loại 7 - núm vú

Bạn nên biết gì về ngày chia cổ tức cho kỳ thi loại 7 - núm vú

Khi khách hàng đang mua chứng khoán của một công ty đang trong quá trình tuyên bố hoặc trả cổ tức, bạn cần phải có khả năng nói cho khách hàng biết họ có quyền nhận cổ tức hay không. Do giao dịch chứng khoán giải quyết trong ba ngày làm việc, khách hàng được hưởng cổ tức nếu mua chứng khoán tại <

Giải toán Các vấn đề về Từ Toán trên ACT - núm vú

Giải toán Các vấn đề về Từ Toán trên ACT - núm vú

Một vấn đề về chữ (còn gọi là vấn đề về câu chuyện vấn đề trong một thiết lập) cung cấp cho bạn thông tin bằng các từ chứ không chỉ trong phương trình và số. Để trả lời một vấn đề từ toán học trên ACT, bạn phải dịch các thông tin được cung cấp thành một hoặc nhiều phương trình và sau đó giải quyết. Bạn có thể giải quyết một số từ ...

Giải quyết sự tương đồng Tough MAT bằng cách xem xét các phần của bài phát biểu - những núm vú

Giải quyết sự tương đồng Tough MAT bằng cách xem xét các phần của bài phát biểu - những núm vú

Giải thích sự tương tự trên Miller Analogies Test (MAT) là khó khăn, nhưng nếu bạn có một kế hoạch, nó có thể giúp đỡ. Một phương pháp tấn công một phép so sánh phức tạp của MAT là kiểm tra các phần của bài phát biểu cho mỗi thuật ngữ. Bằng cách hiểu biết các phần của bài phát biểu liên quan, bạn có thể làm sáng tỏ một sự tương tự gây nhầm lẫn. ...

Lựa chọn của người biên tập

Thiết kế một Ảnh Cắt dán cho Blog của bạn với PicMonkey - những hình núm vú

Thiết kế một Ảnh Cắt dán cho Blog của bạn với PicMonkey - những hình núm vú

Trên blog, ảnh cắt dán cho phép bạn trình bày nhiều hình ảnh hơn trong một không gian nhỏ hơn so với khi bạn chèn những bức ảnh này vào bài đăng trên blog. Ảnh ghép ảnh cũng có thể làm cho nhìn vào nhiều hình ảnh hấp dẫn hơn, cho dù đó là trong bài viết blog của bạn hoặc ở nơi nào khác trong thiết kế blog của bạn.

Thiết kế một Trang Quảng cáo hiệu quả cho Blog của bạn - những con cần

Thiết kế một Trang Quảng cáo hiệu quả cho Blog của bạn - những con cần

Nếu bạn muốn kiếm tiền từ blog của bạn thông qua quảng cáo hoặc làm việc với các công ty, sau đó có một trang quảng cáo như một phần của thiết kế blog của bạn là phải. Nếu blog của bạn không có trang Quảng cáo, đại diện công ty sẽ không biết bạn có tiềm năng quan tâm đến việc làm việc với họ trong các dự án chung. Tất nhiên, ...

Thiết kế Blog của bạn Yourself - núm vú

Thiết kế Blog của bạn Yourself - núm vú

Nếu bạn có một niềm đam mê để học những điều mới và không nhớ thử nghiệm, hãy thử tự thiết kế blog của bạn. Tất nhiên, lập luận của bạn có thể ít mạo hiểm hơn - nói rằng, bạn có thể không có tiền để thanh toán cho ai đó để thiết kế blog của bạn. Bất kể lý do, việc thiết kế blog của riêng bạn có thể được khen thưởng! ...

Lựa chọn của người biên tập

Làm thế nào để Căn chỉnh Excel 2010 dữ liệu theo chiều ngang và chiều dọc - núm vú

Làm thế nào để Căn chỉnh Excel 2010 dữ liệu theo chiều ngang và chiều dọc - núm vú

Trong Excel 2010, bạn có thể thay đổi sắp xếp ngang và dọc của dữ liệu ô. Theo mặc định, văn bản được căn lề trái, và giá trị và ngày được canh phải. Sử dụng các nút trong nhóm Alignment của tab Trang chủ để thay đổi sắp xếp. Các giá trị được định dạng dưới dạng Kế toán chỉ có thể hiển thị là liên kết phải. Bạn có thể thay đổi sắp xếp tất cả ...

Làm thế nào để Căn chỉnh nhiều đối tượng đồ họa trong Excel 2010 - núm vú

Làm thế nào để Căn chỉnh nhiều đối tượng đồ họa trong Excel 2010 - núm vú

Khi bạn làm việc với nhiều đối tượng hoặc hình dạng trong Excel 2010, bạn có thể cần căn chỉnh các đối tượng theo những cách nhất định để cải thiện sự xuất hiện của họ trong bảng tính. Excel cung cấp một số tuỳ chọn căn chỉnh thông qua menu Align trên tab Định dạng Công cụ Vẽ. Thực hiện theo các bước sau để căn chỉnh các đối tượng đồ họa trong một bảng tính: Chọn <...

Cách áp dụng một kiểu bảng cho một bảng Excel 2010 - núm vú

Cách áp dụng một kiểu bảng cho một bảng Excel 2010 - núm vú

Trong Excel 2010, bạn có thể áp dụng một định dạng bảng được xác định trước cho một phạm vi ô. Tính năng Định dạng Bảng làm hiển thị một bộ sưu tập Thư viện mở rộng với định dạng hình thu nhỏ được chia thành ba phần - Ánh sáng, Trung bình và Đậm - mỗi màu đều mô tả cường độ màu được sử dụng theo các định dạng khác nhau.