sky 发表于 2017-6-2 17:13:22

什么是robots?

什么是robots:
robots是网站与搜索引擎之间的协议文件,是蜘蛛爬行网站访问的第一个文件,它可以保护网站隐私防止信息泄露,可以屏蔽站内不需要参与排名的页面。让蜘蛛合理抓取资源。
屏蔽内容例如:隐私内容、网站后台、数据库文件、模板文件、死链、垃圾内容及重复内容。

robots的组成:
1、User-agent:用户代理,也可以是百度蜘蛛。 如:User-agent: BaiduSpider
2、Disallow:屏蔽路径,指不允许抓取的一组URL,作用是屏蔽URL不允许蜘蛛抓取收录。如:即Disallow: /insall屏蔽install所以文件。
3、Allow:绿色通道,蜘蛛可抓取的一组URL。 如:Allow: /install百度蜘蛛可以抓取install的所有文件
4、*通配符:可以匹配0个或多个文件任意字符。 如:需要屏蔽网站上的所有jpg文件。*就可以代替所有。即Disallow: /*.jpg
5、$结束符: 如:Disallow: /*.jpg$

注意:
1、robots所有的输入都在英文状态下,如<:>为中文状态。<:>为英文状态。
2、没有robots文件所有的蜘蛛都可以抓取网站上的所有文件。
3、不要随便屏蔽整站,因为robots生效的时间或许在短短的几天,或许长达一个月。
如:为什么我的网站上线后屏蔽了还是被收录。这就是一个生效时间的问题。


robots的写法:
User-agent: BaiduSpider
Disallow: /
以上写法:不允许百度蜘蛛抓取网站。


User-agent: *
Disallow: /

User-agent: BaiduSpider
Allow: /
以上写法:只允许百度抓取和收录。


User-agent: BaiduSpider
Disallow: /install

以上写法:不允许百度抓取和收录install所有文件。


User-agent: BaiduSpider
Disallow: /install/

以上写法:不允许百度抓取install/一下的文件。如:install/123456    但是可以抓取install/123456以上的文件。如:install123456


User-agent: BaiduSpider
Disallow: /*?*

以上写法:不允许百度抓取网站中的动态路径。


User-agent: BaiduSpider
Disallow: /*jpg$

以上写法:不允许百度抓取网站中的所有jpg图片。


PS:如需互换搜索引擎只要在User-agent:后面换上相应的就好,如User-agent: 360Spider。
robots.txt文件中的“# Robots For DESTOON B2B”:他是注释的意思不影响什么。

tszhsq 发表于 2017-6-2 20:16:10

robots知识对于站长是应该了解一下的。
页: [1]
查看完整版本: 什么是robots?