首页 > 建站知识

robots协议书写的正确方法

2019-03-08 17:05:00 海静

1、什么是robots协议?

robots协议全称“网络爬虫扫除规范”,又称爬虫协议、机器人协议等,它规则着搜索引擎抓取网站时所能抓取的内容,是网络爬虫匍匐网站时第一个要拜访的文件;坐落网站的根目录下,文件名是robots.txt 。
2、robots协议的效果是什么?
①robots协议用于维护网站的隐私,能够避免自己网站重要信息的走漏;
②一起,robots协议也能让网络爬虫合理地抓取网站内资源:能够屏蔽掉不想被抓取的隐私内容、后台、数据库文件、模板、插件文件、做了伪静态处理后的动态途径等,只抓取需求参加排名的页面;
③别的,robots协议还能够用于屏蔽一些网站中比较大的文件,如:图片、音乐、视频等,节约服务器的带宽;能够用于屏蔽站点的废物页面和死链。
3、robots协议的写法是什么?
robots协议是运用英文书写的,其写法如下:
①User-agent: 其后跟的是搜索引擎的姓名,用于指定robots协议界说的目标;
②Disallow: 其后跟的是不答应网络爬虫抓取的文件的称号,用于界说制止匍匐的网站内容;
③Allow: 其后跟的是答应网络爬虫抓取的文件的称号,用于界说答应匍匐的网站内容,一般不需求进行界说;
④* 它是一个通配符,用于指代“一切或恣意的内容”;
⑤$ 它是完毕符,用于界说相同后缀名的文件的后边,例如不答应抓取一切的图片文件时就能够以$完毕行。
4、注意事项有哪些?
①不要随便地进行整站屏蔽,由于robots协议的收效时间短的是几天,长的是一个月;
②要注意空格,在“User-agent:”、“Disallow:”和“Allow:”的后边都有一个空格;
③要注意每一行的第一个首字母都需求大写。
看完整篇文章,你会正确地书写自己网站的robots协议了吗?会的话,抓紧时间给自己的网站增加一个robots协议吧。

转载请注明出处。