首先,我给大家引出一个名词:搜索引擎?!这个是什么呢?
嘿嘿,相信大家都有在互联网上搜索过自己想要的资料(如:图片、电视电影、小说、其他等等;你点击一下搜索,你想要的东西都出现了在你的面前。就这么强大,这么快速,这就是搜索引擎!那么现在我给大家来说说我对于搜索引擎的一点理解!
搜索引擎的工作原理包含四大步骤:
抓取 ->过滤 ->收录 ->排序
一、抓取(如何抓取)
我们知道互联网上有很多的网站,那么搜索引擎是怎样找到网站的呢?首先搜索引擎有一个小程序专门来负责发现网址,然后这个程序从网址来到网站,然后程序再抓取网站信息(比如:网站的网页、图片、文章等)。我们管这个小程序叫蜘蛛。不同的搜索引擎蜘蛛的名称不同。
常见几种蜘蛛如下:
百度蜘蛛:Baiduspider 谷歌蜘蛛:Googlebot 搜狗蜘蛛:Sogou News Spider 360蜘蛛:360Spider 雅虎蜘蛛:“Yahoo! Slurp China”或者Yahoo!
蜘蛛抓取的信息:可能是你网站的首页、可能是内页、可能是一个logo、可能是网站中某一张图片、还有可能是网站中的一篇文章等等; 但是蜘蛛有些东西也是不能抓取的,比如:JS代码、图片内文字信息、菜单下拉、iframe框架信息等等。 那么百度蜘蛛抓取的这些数据会存放在哪里呢? 这时百度蜘蛛抓取的一些网站信息它会存放在一个临时的数据库中。 二、过滤 这时存放在一个临时的数据库中的信息,搜索引擎会针对这些信息进行一次过滤。 那么搜索引擎的过滤有哪些条件或者是需要过滤哪些不符合规则的信息呢? 具体如下: 1、网站网页内容为空; 2、网站网页内容质量不高、排版不美观; 3、抓取不到内容的网站,如:菜单的下拉等; 4、设置有访问权限的网页等; 5、在互联网上存在雷同或者相似内容的网页信息等; 以上只是列出我所理解的。 三、收录 过滤之后的内容(这些内容是符合规则的)将会被搜索引擎收录。 那么我们怎么知道我们的网站被收录呢? 这里有个方法 - >使用site语句 site:网址域名地址 这样就可以查看我们网站是否被收录了。 我们怎么知道蜘蛛来过我们的网站,抓取过我们网站上的数据信息呢? 两种方法可以查看: 1、通过网站日志来查询; 2、使用百度站长平台工具,登陆进去,点击“抓取频次”就可查看我们的网站抓取情况了; 四、排序 网站收录之后,这时这些信息会存放进索引库中。想要进入排名,就必须进索引库。在索引库中进行分类、评分、归档、排名。 最终展现在用户面前。 OK,以上就是我对于搜索引擎的工作原理的理解!大家理解了吗?
|