深圳SEO
欢迎您光临!

搜索引擎的检索结果排序

由文档列表组求集得到的每个文档都需要和查询词一同经过向量化的过程,通过计算文档向量和查询向量的夹角余弦求得向量相似度(一个可以量化的数值),排序就按照这个数的大小关系进行排列。由于搜索结果是海量的,深圳SEO也相信用户也几乎不会耐着性子看完全部的检索结果。有调查表明,大部分的用户使用搜索引擎查询时,在得到搜索结果页后不会向下翻页,而只关注搜索结果的第1页。即只实际上需要返加前n项结果即可,学术上称此为“top-n查询”。
由于文档列表按照pagerank排序(参阅前面的相关章节),这一点在索引系统中提到过(实际上,文档列表既按照pagerank排序,又按照文档编号排序),因此只需要pagerank排名靠前的一部分网页拿出来进行这种向量化,然后和查询相似度的比较即可。而不需要把关键词doclist的全部文档都执行这样的计算,这样可以大大降低向量化和向量相似度计算的规模。
例如某个查询词通过布尔模型的求交过程得到20万个包含查询词的文档,这里假定只需要查询排名在2596(top-256)以前的结果,因此可以从20万个文档中取出一定比例的文档。例如取出前5000个文档,注意由于这20万个文档是按照pagerank排序的,所以前5000个文档可以理解为在这20万个文档中重要性最高的文档。接下来继续在5000个文档中通过向量化及相似度计算,分别得到这5000个文档和查询词的匹配程序。我们不妨在这里称为“匹配排名”(matchrank),表示和查询词的匹配程度。例如使用堆排序或者快速排序这样的经典排序算法对5000个文档的matchrank进行排序,最终取排名前256位的文档即可。这样检索出的文档既具有重要性高(pagerank高)的特点,也具有向量空间模型所要求的相关性强的特点。
在众心排序算法中,由于堆排序具有元素移动少,空间复杂度低并支持top-n查询等优点,因此被用来进行检索结果的排序。

本文出自深圳SEO公司,未经允许不得转载:深圳SEO公司-深圳SEO服务公司 » 搜索引擎的检索结果排序
分享到: 更多 (0)

评论 抢沙发

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址