蜘蛛抓取的信息:可能是你网站的首页、可能是内页、可能是一个logo、可能是网站中某一张图片、还有可能是网站中的一篇文章等等;
但是蜘蛛有些东西也是不能抓取的,比如:JS代码、图片内文字信息、菜单下拉、iframe框架信息等等。
那么百度蜘蛛抓取的这些数据会存放在哪里呢?
这时百度蜘蛛抓取的一些网站信息它会存放在一个临时的数据库中。
二、过滤
这时存放在一个临时的数据库中的信息,搜索引擎会针对这些信息进行一次过滤。
那么搜索引擎的过滤有哪些条件或者是需要过滤哪些不符合规则的信息呢?
具体如下:
1、网站网页内容为空;
2、网站网页内容质量不高、排版不美观;
3、抓取不到内容的网站,如:菜单的下拉等;
4、设置有访问权限的网页等;
5、在互联网上存在雷同或者相似内容的网页信息等;
以上只是列出我所理解的。
三、收录
过滤之后的内容(这些内容是符合规则的)将会被搜索引擎收录。
那么我们怎么知道我们的网站被收录呢?
这里有个方法 - >使用site语句 site:网址域名地址 这样就可以查看我们网站是否被收录了。
我们怎么知道蜘蛛来过我们的网站,抓取过我们网站上的数据信息呢?
两种方法可以查看:
1、通过网站日志来查询;
2、使用百度站长平台工具,登陆进去,点击“抓取频次”就可查看我们的网站抓取情况了;
四、排序
网站收录之后,这时这些信息会存放进索引库中。想要进入排名,就必须进索引库。在索引库中进行分类、评分、归档、排名。
最终展现在用户面前。
OK,以上就是我对于搜索引擎的工作原理的理解!大家理解了吗?