Robots.txt là gì?
Thứ Bảy, 6 tháng 9, 2014
Rất nhiều người kinh doanh, làm dịch vụ đã bắt gặp Robots.txt khi tìm hiểu các để đạt thứ hạng cao trên các công cụ tìm kiếm, vậy Robots.txt là gì, cách sửa dụng robots.txt như thế nào. Hãy cùng thiet ke web tai da nang OSVN tìm hiểu ngay sau đây.
Robots.txt là gì?
Robots.txt là 1 file đặt trong thư mục root, robots.txt không phải HTML mà chứa nội dung văn bản. Khi 1 công cụ tìm kiếm (SE) vào 1 website, nó sẽ tìm file robots.txt, lệnh được viết trong file robots.txt cho biết website có thể index ở 1 khu vực hay không. Robots.txt quy định từng loại bot khác nhau của các SE khác nhau có thể vào từng khu vực hay toàn bộ website hay không.
Ví dụ:
Disallow: /images/img.jpg: Chặn không cho bot truy cập vào file ảnh có tên img.jpg.
Disallow: / : Chặn không cho bot truy cập vào toàn bộ trang web.
Disallow: /administrator/ : chặn không cho bot truy cập vào trang quản trị.
User-agent: * : Cho tất các các loại bot truy cập vào trang web.
Disallow: /administrator/ : chặn không cho bot truy cập vào trang quản trị.
User-agent: * : Cho tất các các loại bot truy cập vào trang web.
Chính vì sự quan trọng của nó, mà cấu hình file Robots.txt khi thiet ke website là việc bạn không thể bỏ qua nếu muốn có thứ hạng tốt.
Cài đặt và cấu hình Robots.txt
Vì nó không phải là file HTML mà chỉ là 1 file văn bản cực kì đơn giản, nên bạn có thê sử dụng bất kì 1 trình soạn thảo văn bản nào để tạo robots.txt, chẳng bạn như notepad.
Trong file robots.txt:
User-agen:* qui định các loại bot được phép truy cập vì hiện tại có rất nhiều bot như Yahoo Slurp, Bingbot, Yandex ( Yandex là công cụ tìm kiếm của Nga), Googlebot (Google), Googlebot Image. Ở đây sử dụng dấu * nghĩa là cho phép mọi loại bot truy cập.
Allow:/ cho phép dò và index toàn bộ các trang và thư mục
Disallow: /wp-admin/ và Disallow: /wp-includes/ chặn hai thư mục wp-admin và wp-includes
Sitemap: qui định sơ đồ của website
Allow:/ cho phép dò và index toàn bộ các trang và thư mục
Disallow: /wp-admin/ và Disallow: /wp-includes/ chặn hai thư mục wp-admin và wp-includes
Sitemap: qui định sơ đồ của website
Xem thêm: sitemap la gi.
Dưới đây thiet ke website tai Da Nang xin giới thiệu cấu trúc một file robots.txt đơn giản của WordPress như sau:
User-agent: *
Allow: /
Disallow: /wp-admin/
Disallow: /wp-includes/
Sitemap: sitemap.xml.gz
User-agent: *
Allow: /
Disallow: /wp-admin/
Disallow: /wp-includes/
Sitemap: sitemap.xml.gz
Một số cách cấu hình robots.txt mà bạn có thể tìm hiểu thêm như sau:
- Chặn một bot nào đó: Bạn có thể từ chối truy cập với 1 bot cho trang web, hoặc chỉ cho phép truy cập 1 vài thư mục với 1 bot của công cụ tìm kiếm nào bạn muốn mà không phải tất cả chúng.
- Sử dụng đồng thời “Allow” và “Disallow” cùng nhau: Vừa cho phép, vừa cấm truy nhập, đây cũng là 1 phần khá hay của robots.txt mà bạn đáng tìm hiểu.
- Sử dụng đồng thời “Allow” và “Disallow” cùng nhau: Vừa cho phép, vừa cấm truy nhập, đây cũng là 1 phần khá hay của robots.txt mà bạn đáng tìm hiểu.
- Chặn 1 trang: Cũng với lệnh disallow, bạn có thể chặn 1 trang web tùy ý bạn.
- Loại bỏ 1 hình từ Google Images
- Không cho phép bot truy cập vào thư mục nào mà mình không muốn: Thay vì việc bạn cấm tất cả, bạn có thể quy định từng thư mục được truy cập cho bot nhờ lệnh Disallow mà chúng tôi đề cập ở trên.
- Khóa toàn bộ trang web không cho bot đánh chỉ mục: Điều này đồng nghĩa với việc bạn nói KHÔNG với các công cụ tìm kiếm vì bạn cấm tất cả các bot truy cập vào tài nguyên trang web.
- Loại bỏ 1 hình từ Google Images
- Không cho phép bot truy cập vào thư mục nào mà mình không muốn: Thay vì việc bạn cấm tất cả, bạn có thể quy định từng thư mục được truy cập cho bot nhờ lệnh Disallow mà chúng tôi đề cập ở trên.
- Khóa toàn bộ trang web không cho bot đánh chỉ mục: Điều này đồng nghĩa với việc bạn nói KHÔNG với các công cụ tìm kiếm vì bạn cấm tất cả các bot truy cập vào tài nguyên trang web.
Những lưu ý khi cài đặt và cấu hình file robots.txt
- Phân biệt chữ thường, chữ hoa trong robots.txt
- Mỗi lệnh viết trên một dòng
- Không tự ý thêm các ký tự đặc biệt dễ gây nhầm lẫn cho bot
- Kiểm tra thường xuyên file robots.txt
- Hết sức thận trọng khi sử dụng
- Không được viết thừa hoặc thiếu khoảng trắng
Trên đây là những kiến thức cơ bản về robots.txt, hãy cùng OSVN bổ sung các kiến thức liên quan bằng cách comment bên dưới.
Bài viết khác: Các bước làm tăng tốc độ index website.
Bài viết khác: Các bước làm tăng tốc độ index website.
Bài liên quan
Comments[ 0 ]
Đăng nhận xét