ic_ee

搜索引擎工作原理简介

搜索引擎工作原理十分复杂,想要全部弄懂需要极为专业的知识,但作为SEO人员,我们必须了解基础性知识,如引擎是怎么实现网页收录、如何确定排名等,才能有针对性有效率地做好优化工作。下面就来看看hostgator美国主机小编为大家介绍的文章吧。

一、爬行和抓取

想要在引擎中展示出网站,第一步工作就是完成数据的收集。引擎通过蜘蛛爬行访问页面,将页面代码存入原始页面数据库,再通过连接爬行到其他页面重复抓取过程,直至完成所有页面的抓取。

通常蜘蛛爬行分为两种策略,深度优先与广度优先。简单说,前者是不断沿着发现的连接往下,直到前面再没有链接才返回到最初的页面爬行另一个链接。后者是优先将第一个页面的所有链接爬行完,再去爬行深层次链接。

因此,想要蜘蛛在网页待更尝试时间,希望更多页面收录,就要不断更新内容,导入其他链接等方式来吸引蜘蛛。怎么去优化网站,可以阅读如何着手优化网站?

二、预处理

当所有页面都存入到数据库中后,就需要对这些页面进行处理,否则数亿级别的页面想要在不到一秒之内呈现给用户,几乎是不可能的。

因此,搜索引擎会对抓取到的页面进行预处理,包括:

1.提取文字,将可识别的内容提取出来;

2.分词,将内容分成一个个关键词;

3.去停止词,删除“的”、“啊”等无影响词;

4.消除噪声,删除对内容毫无意义毫不相关的内容;

5.去重,去除与其他页面重复的内容;

6.正排索引,将页面转化为关键词的集合,与文件名产生对应关系,建立起索引词表库,如文件1包含关键词1、关键词2、关键词7,文件2包含关键词1、关键词3、关键词8等;

7.倒排索引,因为正排索引在筛选内容时需要扫描整个数据库,工作量太大,因此需要建立倒排索引,将关键词与文件关系对调,比如关键词1包含文件1、文件2,关键词2包含文件X。

8.计算链接关系,计算每个页面有多少链接,链接的质量如何,形成一定的权重。

三、排名

在以上预处理完毕后,就是排名。但用户在引擎上搜索一个关键词,引擎会优先将搜索词进行分词、去停止词、指令处理等简单处理一下,便于更好地识别配对,然后根据已经建立的倒排索引表配对。

但因为每个关键词可能配对的文件可能达到几十万甚至更多,需要的时间很长,因此,引擎会只计算大致前1000个结果,形成初始页面子集,最主要的判断就是页面权重,只有权重到达一定程度才能进入初始子集。

进入后,引擎对其计算相关性,更具综合计算方法最终确定排名。想知道个更多的内可以阅读搜索引擎应该如何更有效的优化呢?