推广之家
标题:
什么是robots?
[打印本页]
作者:
sky
时间:
2017-6-2 17:13
标题:
什么是robots?
什么是robots:
robots是网站与搜索引擎之间的协议文件,是蜘蛛爬行网站访问的第一个文件,它可以保护网站隐私防止信息泄露,可以屏蔽站内不需要参与排名的页面。让蜘蛛合理抓取资源。
屏蔽内容例如:隐私内容、网站后台、数据库文件、模板文件、死链、垃圾内容及重复内容。
robots的组成:
1、User-agent:用户代理,也可以是百度蜘蛛。
如:User-agent: BaiduSpider
2、Disallow:屏蔽路径,指不允许抓取的一组URL,作用是屏蔽URL不允许蜘蛛抓取收录。
如:
即
Disallow: /insall 屏蔽install所以文件。
3、Allow:绿色通道,蜘蛛可抓取的一组URL。
如:Allow: /install 百度蜘蛛可以抓取install的所有文件
4、*通配符:可以匹配0个或多个文件任意字符
。 如:需要屏蔽网站上的所有jpg文件。*就可以代替所有。即Disallow: /*.jpg
5、$结束符:
如:
Disallow: /*.jpg$
注意:
1、robots所有的输入都在英文状态下,如<:>为中文状态。<:>为英文状态。
2、没有robots文件所有的蜘蛛都可以抓取网站上的所有文件。
3、不要随便屏蔽整站,因为robots生效的时间或许在短短的几天,或许长达一个月。
如:为什么我的网站上线后屏蔽了还是被收录。这就是一个生效时间的问题。
robots的写法:
User-agent:
BaiduSpider
Disallow: /
以上写法:不允许百度蜘蛛抓取网站。
User-agent:
*
Disallow: /
User-agent:
BaiduSpider
Allow: /
以上写法:只允许百度抓取和收录。
User-agent:
BaiduSpider
Disallow: /install
以上写法:不允许百度抓取和收录install所有文件。
User-agent:
BaiduSpider
Disallow: /install/
以上写法:不允许百度抓取install/一下的文件。如:install/123456 但是可以抓取install/123456以上的文件。 如:install123456
User-agent:
BaiduSpider
Disallow: /*?*
以上写法:不允许百度抓取网站中的动态路径。
User-agent:
BaiduSpider
Disallow: /*jpg$
以上写法:不允许百度抓取网站中的所有jpg图片。
PS:如需互换搜索引擎只要在User-agent:后面换上相应的就好, 如User-agent: 360Spider。
robots.txt文件中的“# Robots For DESTOON B2B”:他是注释的意思不影响什么。
作者:
tszhsq
时间:
2017-6-2 20:16
robots知识对于站长是应该了解一下的。
欢迎光临 推广之家 (http://bbs.370k.com/)
Powered by Discuz! X3.2