设为首页收藏本站

推广之家

 找回密码
 立即注册

QQ登录

只需一步,快速开始

搜索
查看: 4158|回复: 1
打印 上一主题 下一主题

[知识讲解] 什么是robots?

[复制链接]

434

主题

471

帖子

2973

积分

网站编辑

Rank: 8Rank: 8

金币
0
银币
0
铜币
13
推点
2020
贡献值
696
人气值
244
跳转到指定楼层
楼主
发表于 2017-6-2 17:13:22 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
什么是robots:
robots是网站与搜索引擎之间的协议文件,是蜘蛛爬行网站访问的第一个文件,它可以保护网站隐私防止信息泄露,可以屏蔽站内不需要参与排名的页面。让蜘蛛合理抓取资源。
屏蔽内容例如:隐私内容、网站后台、数据库文件、模板文件、死链、垃圾内容及重复内容。

robots的组成:
1、User-agent:用户代理,也可以是百度蜘蛛。 如:User-agent: BaiduSpider
2、Disallow:屏蔽路径,指不允许抓取的一组URL,作用是屏蔽URL不允许蜘蛛抓取收录。如:Disallow: /insall  屏蔽install所以文件。
3、Allow:绿色通道,蜘蛛可抓取的一组URL。 如:Allow: /install  百度蜘蛛可以抓取install的所有文件
4、*通配符:可以匹配0个或多个文件任意字符。 如:需要屏蔽网站上的所有jpg文件。*就可以代替所有。即Disallow: /*.jpg
5、$结束符: 如:Disallow: /*.jpg$

注意:
1、robots所有的输入都在英文状态下,如<:>为中文状态。<:>为英文状态。
2、没有robots文件所有的蜘蛛都可以抓取网站上的所有文件。
3、不要随便屏蔽整站,因为robots生效的时间或许在短短的几天,或许长达一个月。
如:为什么我的网站上线后屏蔽了还是被收录。这就是一个生效时间的问题。


robots的写法:
User-agent: BaiduSpider
Disallow: /
以上写法:不允许百度蜘蛛抓取网站。


User-agent: *
Disallow: /

User-agent: BaiduSpider
Allow: /
以上写法:只允许百度抓取和收录。


User-agent: BaiduSpider
Disallow: /install

以上写法:不允许百度抓取和收录install所有文件。


User-agent: BaiduSpider
Disallow: /install/

以上写法:不允许百度抓取install/一下的文件。如:install/123456    但是可以抓取install/123456以上的文件。  如:install123456


User-agent: BaiduSpider
Disallow: /*?*

以上写法:不允许百度抓取网站中的动态路径。


User-agent: BaiduSpider
Disallow: /*jpg$

以上写法:不允许百度抓取网站中的所有jpg图片。


PS:如需互换搜索引擎只要在User-agent:后面换上相应的就好,  如User-agent: 360Spider。
robots.txt文件中的“# Robots For DESTOON B2B”:他是注释的意思不影响什么。

手机扫码浏览
分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
收藏收藏 分享淘帖 顶 踩
回复

使用道具 举报

206

主题

384

帖子

499

积分

推广之家 | 管理组

推广之家副站长

Rank: 14Rank: 14Rank: 14Rank: 14

金币
0
银币
0
铜币
9
推点
73
贡献值
327
人气值
90
沙发
发表于 2017-6-2 20:16:10 | 只看该作者
robots知识对于站长是应该了解一下的。
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|小黑屋|手机版|Archiver|推广之家 ( 苏ICP备14026707号  

GMT+8, 2024-5-2 08:01

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表