robots.txt写法图解

2017-11-12 13:21 评论 0 条

一、什么是robots文件

来自百度官方的说明:robots是站点与蜘蛛spide也称爬虫沟通的重要渠道,站点通过robots文件声明该网站中不想被搜索引擎收录的部分或者指定搜索引擎只收录特定的部分。简单说,robots 文件就是你的网站和搜索引擎的抓取协议,跟搜索引擎约定哪些可以抓,哪些不能抓。

二、robots基本语法

1、User-Agent: 用户代理,指各大搜索引擎蜘蛛
2、Disallow: 您不希望搜索引擎蜘蛛访问的内容(根据需要,禁止多行)
3、Allow: 您希望搜索引擎蜘蛛访问的内容
4、"*" 代表匹配0或多个任意字符
5、"$" 通配符号,表示以某个东西结束
6、"字母大写,英文状态下的“:”以及空格*"

三、robots几种常见的写法

可能很多初学者对语法不是很清楚,请看下面例子。

1、如果不想要蜘蛛抓取整个网站。如下图:

不让蜘蛛抓取整个网站截图

 

2、拒绝所有引擎抓取

拒绝所有引擎抓取截图

3、不让所有蜘蛛抓取文件里面的内容不让所有蜘蛛抓取文件里面的内容截图

4、不想让蜘蛛抓取wp-admin里面的user-edit.php文件不想让蜘蛛抓取wp-admin里面的user-edit.php文件截图

5、不允许蜘蛛抓取wp-admin里面的文件,但允许抓取user-edit.php不允许蜘蛛抓取wp-admin里面的文件,但允许抓取user-edit.php截图

6、如何不让所有蜘蛛抓取网站上所有的动态文件

如何不让所有蜘蛛抓取网站上所有的动态文件

7、如何不让所有蜘蛛抓取网站上所有的js和css 文件如何不让所有蜘蛛抓取网站上所有的js和css 文件截图

同理:如果不想让蜘蛛抓取其它网站上所有的png、jpg、gif、文件,相应的写成Dissllow: /*.png$、Dissllow: /*.jpg$、Dissllow: /*.gif$。

8、Dissllow: /help  禁止robot访问/help.html/helpabc.html/help/index.html
Dissllow: /help/ 则允许robot访问/help.html/helpabc.html,禁止访问/help/index.html

 

四、robots.txt测试写法正确

robots.txt测试写法正确

 

输入被禁止的文件,看是否允许访问,如果显示允许,则robots文件没有写成功。

 

 

版权声明:本文著作权归原作者所有,欢迎分享本文,谢谢支持!
转载请注明:robots.txt写法图解 | SEO566
分类:SEO优化技术 标签:, , ,

发表评论


表情