深圳SEO
欢迎您光临!

搜索引擎查询系统的知识准备

在搜索引擎4大系统中,第4个系统称为“查询系统”。查询系统直接面对用户,在接收用户的查询请求后,通过检索、排序及摘要提取等计算,将计算结果组织成搜索结果页返回给用户。
整个查询过程不仅要快,而且必须能够提供用户满意的查询结果。文献(S. Brin 19981提到“The goal of searching is to provide qualitysearch results efficiently.”)因此,本章从效率和效果这两个角度进行探讨,首先一起来了解一些关于查询系统的常用术语。
什么是信息熵
信息是个很抽象的概念。直到1948年,香农提出了“信息熵”(shing )的概念才解决了信息的量化问题。
回忆一下数据结构中介绍过的哈夫曼编码,该编码通过计算不同词汇的词频并依据大小关系构建哈夫曼树,通过哈夫曼树为不同词频的词汇创建不同长度的前缀编码。从直观上看,高词频词汇编码较短,低词频词汇编码较长,这些编码都是0和1组成的比特串。直观的感觉还难以揭示事实的真相,下面通过一个例子来揭开编码长度和概率之间的联系。
假定红军和蓝军进行战术演习,红军打算左右夹攻蓝军,那么为了使得红军的兄弟部队能够相互通信,需要事先商量进攻的口令。并且由此确定是否同时发起攻击,取得更大的战果。假定有如下3类通信口令。
1.如果太阳围绕地球转,就发动攻击
2.要么在白天攻击,要么在黑夜攻击
3.在0点-6点成者6点一12点或者12点一18点成者18点一24点攻击
不考虑信息安全的倩况下,红军的两支部队需要如何准备这些消息编码呢?显然编码越短,越有利于战场恶劣的条件,并节约通信成本。下面就对这3种情况分别进行分析。
对于第1种情况,红军两支部队不需要任何通信。因为太阳围绕地球转,这是肯定的。通信代价为0,这样无论两支部队选择何种攻击方式都是合理的。
对于第2种情况,红军两支部队需要约定通信方式。假定为红A部通过通信网络传送一个比特0,表示在白天发动攻击;传送一个比特1,表示在黑夜发动攻击。显然,此时的通信代价为1个比特,个比特能够表达两种可能性。由于红军两支部队保证在白天或者黑夜攻击,而不会出现一支部队选择白天,一支部队选择黑夜进行攻击的可能性。因此这种信息更加有价值,然而也付出了1个比特的通信开销,不妨认为这个信息“值”一个比特。
对于第3种情况,虽然相对复杂,但也可以以如下4种编码方式约定口令。
1.00:在0点一6点攻击
2.01:在6点一12点攻击
3.01:在12点一18点攻击
4.11:在18点-24点攻击
此时的通信成本为两个比特,两个比特能够表达4种可能。这样红军两支部队的进攻同步性更强,其先后进攻的时间最多差6小时,很显然这种信息比第2种更加有价值。同样道理,认为这个信息“值”两个比特。
综台上述3种情况的分析,从直观上看,信息包含的情况越多,信息越有价值,需要的通信代价就越大。信息是否有价值隐约地和概率有着密不可分的关系,那么如何衡量发起攻击这个信息,如何从直观跨越到容观呢?
1948年,香农长达数十页的论文“通倍的数学理论”成为信息论正式诞生的里程碑。在其通信数学模型中清楚地提出信息的度量问题,得到了如下计算信息熵(Entropy)公式:
Entropy公式

息集X发出任意一个随机事件的平均信息量。“熵”值H(X)说明了消息集X的每个事件的平均存储的位数,即用多少个二进制表示一个消息。在约定进攻口令的这个例子中,4个口令中发生一个口令平均需要的通信或者存储代价(平均信息量)为两个比特。
香农通过“熵”阐明了概率与信息的关系,即变量的不确定性越大,熵也就越大,将其搞清楚所需要的信息量也就越大。信息熵是一个十分重要的概念,下面在介绍经典的TF/IDF方法时还将就此问题继续展开。
检索和查询的区别
本章约定对于查询来说,适用于真实用户进行的一次查询是相对于搜索引擎查询系统而言的;对于检索来说,适用于检索代理对索引库进行的一次检索是相对于搜索引擎索引系统而言的。查询的结果是搜索结果网页,检索的结果是与查询词相关的文档列表(doclist)。
检索词和查询词的区别
严格意义上,普通用户提交给查询系的关键词称为“查询词”;经过查询系统分词,提交检索代理的称为“检索词”。例如用户提交查询词为“清华大学图书馆”,通过分词,提交给检索代理变成“清华大学”和“图书馆”两个检索词。为了简化,本章并不区分查询词和检索词,而统一使用查询词这个术语。
自动文本摘要(Automatic Text Summarization)自动文本摘要简称“自动摘要”,它是从文档中自动提取的一个正文片断。用户仅仅需要浏览整个正文片段就能够了解文档中与查询词相关的部分,进而判断是否值得详细阅读整篇文档。

本文出自深圳SEO公司,未经允许不得转载:深圳SEO公司-深圳SEO服务公司 » 搜索引擎查询系统的知识准备
分享到: 更多 (0)

评论 抢沙发

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址