深圳SEO公司
欢迎您光临浏览!

搜索引擎的多文档列表求交计算

在实际的查询中,包含一个或者多个查询词,有时一个查询词也会因为分词而分解出多个词,因此可能包含如下3种倩况。

1.查询单个词:例如查询“中国”。
2.查询多个词:例如查询“中国搜索引擎”,搜索引擎默认查询词中间空格表示用户主动的分词,认为是一次多词查询。
3.查询一个词:由于被分词,而成为实际的多词查询。例如查询“走进搜索引擎”将会被分解成为“走进”“搜索引擎”,本质上和第2种类型相当。
对于第1种情况,都需要在倒排索引表中检索出一个关键词对应的文档列表。由于检索结果是单个文档列表,因此不需要进行多文档列表求交的计算过程。
多文档列表求交计算
多文档列表求交计算形式化
多文档列表求交计算的高效计算方法
深圳SEO图例
深圳SEO:线性的计算过程
深圳SEO最佳归并顺序
求交集的结果

当然也存在如下主要缺点:
1.计算有依懒性,难以并发。计算串行完成,强行并发会导致大量空间浪费。
2.需要在本地开辟额外的空间保存临时的求交结果,总的额外空间大小为第l次求得的交集长度。
最后,采用这种归并方法不可避免地存在这样的问题。即在最后一次归并时,必然是一个最短的文档列表和最长的文档列表求交集的过程。如前所述,最后一次归并时,doclistl_2_3是3个文档列表的交集。必然小于或等于最短的文档列表doclistl,而doclisl4是最大的文档列表,因此可能出现一个极小长度的文档列表和一个极大长度的文档列表求交。特别是查询词中包含一个低频词(例如“全文检索”)一个高频词(例如“中国”)和多个中频词时,最后的结果不可避免地出现这种极小文档列表和极大文档列表求的情况,从而给计算带来极大的麻烦。
关于文档列表求交的计算方法还有很多,各有优点和缺点。每种方法也包含了很多优化手段,深圳SEO在这里不再展开。接下来将进入检索计算的最后一个计算环节:检索结果排序。

本文出自深圳SEO公司,未经允许不得转载:深圳SEO公司-深圳SEO服务公司 » 搜索引擎的多文档列表求交计算
分享到: 更多 (0)

评论 抢沙发

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址