搜索引擎工作原理 Archives - HostGator中文官方博客

搜索引擎工作原理十分复杂，想要全部弄懂需要极为专业的知识，但作为SEO人员，我们必须了解基础性知识，如引擎是怎么实现网页收录、如何确定排名等，才能有针对性有效率地做好优化工作。下面就来看看hostgator美国主机小编为大家介绍的文章吧。

一、爬行和抓取

想要在引擎中展示出网站，第一步工作就是完成数据的收集。引擎通过蜘蛛爬行访问页面，将页面代码存入原始页面数据库，再通过连接爬行到其他页面重复抓取过程，直至完成所有页面的抓取。

通常蜘蛛爬行分为两种策略，深度优先与广度优先。简单说，前者是不断沿着发现的连接往下，直到前面再没有链接才返回到最初的页面爬行另一个链接。后者是优先将第一个页面的所有链接爬行完，再去爬行深层次链接。

因此，想要蜘蛛在网页待更尝试时间，希望更多页面收录，就要不断更新内容，导入其他链接等方式来吸引蜘蛛。怎么去优化网站，可以阅读如何着手优化网站？

二、预处理

当所有页面都存入到数据库中后，就需要对这些页面进行处理，否则数亿级别的页面想要在不到一秒之内呈现给用户，几乎是不可能的。

因此，搜索引擎会对抓取到的页面进行预处理，包括：

1.提取文字，将可识别的内容提取出来；

2.分词，将内容分成一个个关键词；

3.去停止词，删除“的”、“啊”等无影响词；

4.消除噪声，删除对内容毫无意义毫不相关的内容；

5.去重，去除与其他页面重复的内容；

6.正排索引，将页面转化为关键词的集合，与文件名产生对应关系，建立起索引词表库，如文件1包含关键词1、关键词2、关键词7，文件2包含关键词1、关键词3、关键词8等；

7.倒排索引，因为正排索引在筛选内容时需要扫描整个数据库，工作量太大，因此需要建立倒排索引，将关键词与文件关系对调，比如关键词1包含文件1、文件2，关键词2包含文件X。

8.计算链接关系，计算每个页面有多少链接，链接的质量如何，形成一定的权重。

三、排名

在以上预处理完毕后，就是排名。但用户在引擎上搜索一个关键词，引擎会优先将搜索词进行分词、去停止词、指令处理等简单处理一下，便于更好地识别配对，然后根据已经建立的倒排索引表配对。

但因为每个关键词可能配对的文件可能达到几十万甚至更多，需要的时间很长，因此，引擎会只计算大致前1000个结果，形成初始页面子集，最主要的判断就是页面权重，只有权重到达一定程度才能进入初始子集。

进入后，引擎对其计算相关性，更具综合计算方法最终确定排名。想知道个更多的内可以阅读搜索引擎应该如何更有效的优化呢？

标签：搜索引擎工作原理