深圳SEO
欢迎您光临!

搜索引擎的计算统计信息

深圳SEO在计算统计信息在上一节中提到,这里给出两种计算方法,两种方法各有优劣。第1种方法从排序后的正排表开始统计;第2种方法从临时倒排文件统计。分别来看这两种方法的区别。首先通过图5-24来理解第1种方法。
从排序后的正排表开始统计
内存中经过排序的正排结果在转换为倒排表之前,发给统计员一份拷贝。统计员为每个索引结点建立一个哈希表,这个哈希表用来进行计数。在全部网页库中的文档被处理完后,统计员将各个哈希表中的词进行综合统计,把相应的结果发给各个索引结点。注意这里发给索引结点A统计结果和发给索引结点B的统计结果是不同的,因为索引结点B不包含“rat”这个索引词,因此没有必要把“rat”的信息发给它。这种方法由于需要哈希表的代价,因此需要耗费一定的内存空间,这是其主要缺点。

第2种统计以夷伐夷要采用基于已计算好的倒排表数据来进行综合统计,整个过程相对简单。相当于对各个索引结点自身的统计结果进行综合统计,然后回传给各个索引结点。这种方法的主要缺点地需要等待最慢的索引结点做完索引后才能开始进行计算。

在完成了创建最终倒排文件和词典后,全部倒排索引文件创建工作完毕。从某种角度上看,这些都是一种预先计算(precomputation)。这种预先计算都是在为查询时节省时间,海量数据完成一次最终倒排索引文件的制作是非常耗时的,这些尽可能预先完成的计算为查询争取了宝贵的时间。
现在离搜索越来越近了,下一章我们来到搜索引擎最直接面对用的查询系统,继续了解有关搜索及查询的知识。

本文出自深圳SEO公司,未经允许不得转载:深圳SEO公司-深圳SEO服务公司 » 搜索引擎的计算统计信息
分享到: 更多 (0)

评论 抢沙发

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址