深圳SEO
欢迎您光临!

倒排索引词典统计信息的计算

深圳SEO认为倒排文件中的词典还需要有关每个索引词的统计信息,主要是词汇出现的文档数。这些信息主要用在查询系统中,在下一章中会详细些统计数据是如何应用的。
在索引系统中,这些关于索引词出现的文档数的统计是在查询请求发生之前预先计算好,是倒排表的词典部分中不可分割的一部分。把做统计工作的这个模块称为“统计员”。关键词是文档频率的统计信息是全局的,因此在整个系统中仅有一个服务模块来完成这项工作。在系统结构图中,统计员的位置如图5-21所示。
文档频率的统计信息
如图所示,统计员把各个索引结点的词典信息综合起来做全局统计。然后将统计 结果传回各自词典中,继面保存这些全局统计信息。在下一节说明倒排索引创建过程时会详细提到关于统计信息的计算过程。

本文出自深圳SEO公司,未经允许不得转载:深圳SEO公司-深圳SEO服务公司 » 倒排索引词典统计信息的计算
分享到: 更多 (0)

评论 抢沙发

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址