深圳SEO
欢迎您光临!

搜索引擎的网页信息检索

网页信息检索的数据源来自于网页索引库(在前一章中介绍了网页对象被索引入库的全过程),网页信息检索输出是一组文档编号,这些被编号的文档都是索引库中包含查询词的文档。
早期的检索摸型
早期的检索模型是一种称为“布尔模型”(Boolean Models)的检索模型。布尔模型也称为“集合模型”。是一种采用AND、OR及NOT等逻辑运算符将多个查询词连成一个逻辑表达式,继而通过布尔运算进行检索的简单匹配模型。例如查询词为“走进搜索引擎 检索摸型-搜索”,将会被翻译成“走进搜索引擎AND检索模型NOT搜索”这样的逻辑语言。按照自然语言的翻译,这个逻辑语言表示包含“走进搜索引擎”且包含“检索模型”,却不包含“搜索”的文档集台。对于查询系统来说,这样的查询词表示用户请求检索包含“走进搜索引擎”且包含“检索模型”,却不包含“摸索”的文档集合。

布尔模型的这种检索易于实现,检索速度快。但是由于没有考虑文档和查询词的相关性问题,没有区分查询词的权重问题。因此在“效率”和“效果”的两难选择上放弃了“效果”,而仅仅考虑了“效率”。
此外,如果查询词中有一个关键词没有包含,则可能出现漏检,不妨通过一个例子来说明布尔模型的这些主要的缺点。

假定有如下这样3篇待检索的文档。
1.在传统搜索引擎架构中,搜索引擎由4个系统构成,分别是下载系统、分析系统、索引系统及查询系统。
2.机械行业内一般把小型挖掘机简称为“小挖”,小挖由5个系统构成,分别是…。详细地理解这些名词可以使用“百度”搜索引擎搜索一下。
3.搜索引擎有4个主要功能模块,分别是下载系统、分析系统、索引系统和查询系统。这4个系统是搜索引擎的核心,其中查询系统是搜索引擎惟一直接面对容户的系统。
如果采用布尔检索摸型。在查询“搜索引擎系统构成”这样的查询词时,文档1和文档2均会被检索到,因为文档1和文档2均包含了全部查询词。显而易见,在第l个文档中,“搜素引擎”这个关键词出现了两次,“系统构成”出现了1次;在文档2中“搜索引擎”出现了l次,“系统构成”也出现了1次,直觉上看应该是文档1的相关性更好。在布尔模型中很难进行相关性强弱的度量,它只解决“有”还是“没有”的问题,不解决“好”还是“不好”的问题。
最后,从用户查询意图上看,文档3比文档2更加符台用户的查询意图。文档3中出现了3次“搜索引擎”这个关健词,仅仅因为没有包含“系统构成”这个关键词,而没有被检索出,而文档2只是沾边提到了搜索引擎,却能够被检索出。
布尔模型归纳起来存在如下两大优点
1.表达简单且易于实现。在关键词检索的过程中,把检索计算转变为集合运算,特别是集合间的求交集运算和集合间的差运算。
2.检索速度快。布尔模型的计算主要是集合求交运算这将在下一节中介绍。
正是由于布尔模型的两个优点造成了布尔模型的如下两大不足
1.如果有一个查询词没有被包含,则检索失败。由于布尔模型表达简单,缺乏灵活性,造成上例文档3中没有包含“系统构成”这一关健词,因而无法被检索出来的情况。
2.检索出来的结果很难进行相关性排序。由于布尔模型计算简单,例如前面的例子中检索“搜索引擎系统构成”的过程中,文档1和文档2与查询词的相关性没有被计算,从而无法了解哪个文档更加符合用户的查询意图(通常认为符合用户查询意图的文档在搜索结果中应排名靠前)。
布尔模型的不足主要由于没有考虑到关键词在查询中的权重问题,这一点不足在向量空间模型(Vector Space Models)中得到部分解决。虽然不够完美,但是已经足够解决上面例子中的检索问题。

本文出自深圳SEO公司,未经允许不得转载:深圳SEO公司-深圳SEO服务公司 » 搜索引擎的网页信息检索
分享到: 更多 (0)

评论 抢沙发

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址