深圳SEO公司
欢迎您光临浏览!

搜索引擎的向量空间模型

和布尔模型不同,向量空间模型主要关心的是“效果”,而非 “效率”。向量空间模型提出了将查询词和文档按照关键词的维度分别向量化,然后通过计算这两个向量间夹角余弦的方法得到文档与查询词的相似度。从而优先检索那些和查询词相似度大的文档,并且能够对检索出的文档按照与查询词的相似度进行排序。
下面深圳SEO带大家来看张图向量空间检索模型的计算方法如图6-1所示。

向量空间检索模型的计算方法

在向量空间检索模型中,通过下面3个步骤进行检索。
1.把原始查询和文档都看做是文本,使用同样的向量化过程分别得到查询向量和文档向量。
2.通过计算向量相似度的方法计算原始查询和文档的相似度。
3.按照与查询词的相似度从大到小排序文档,返回给用户。

向量(vector)是一个很抽象的概念,它又称为“矢量”。最初被应用于物理学,很多物理量,如力、速度、位移、电场强度以及磁感应强度等都是向量。大约在公元前350年,古希腊著名学者亚里士多德就已提出力可以表示成向量,两个力的组合作用可用著名的平行四边形法则来得到。英国大科学家牛顿且先使用有向线段表示向量。

事实上,向量包含了两层含义,即长度和方向。长度用向量的摸表示,向量的模(长度)的计算公式为向量的每个分量的平方和开根号。由于向量具有方向,所以方向上的差异(角度)被用来量化向量的相似程度。
将各种不同的关键词看做是不同的维度,那么每个文档按照关键词进行向量化,得到向量中每一个分量可以理解为向量在各个关键词维度上的投影。这一点不难理解,三维坐标上描述一个点采用的方式为(a,b,c)表示向量在X轴上的投影为a,在Y轴上的投影为b,在Z轴上的投影为c。在这里只是把代表三维空间中3个轴转换为n个关健词的n维空间,这样每一个查询句子和每一个文档都可以用这个n维空间来表示。通过下面的一个例子来理解向量化的过程。假定汉语的词汇表只有“走进”、“搜索引擎”和“学习”这3个词(实际上,常用的汉语词汇过万),那么这3个词组成的向量空间就是我们熟悉的三维空间,如图6-2所示。

向量空间

在图中,对于“走进搜索引擎,学习搜索引擎”这个句子,通过计算每个词汇的出现的次数。得到这样的统计信息。即“搜索引擎”出现两次,“走进”出现l次,“学习”出现1次。将3个词的维度理解为三维空间的XYZ轴,这样“走进搜索引擎,学习搜索引擎”在词汇表构成的向量空间内表示为向量(2,1,1)。
这个向量的3个分量的意义可以理解为对3个轴的投影分别是2,1,1,物理含义为这些关健词在查询句子中分别出现的次数,同时注意这里向量的方向性用箭头表示。

现在我们扩展到四维空间上理解,假定词汇表中还包括了“检索模型”一词,这样对于“走进搜索引擎,学习搜索引擎”这个句子进行向量化的结果可能是(2,1,1,O),其中四维空间的第四维表示“检索摸型”。由于这个句子中没有出现“检索模型”,因此它在这个关键词维度上的投影为0。

四维空间的检索摸型

在向量化的工作完成后(下一节将提到实际上采用经典的TF/IDF方法进行向量化的工作),就需要解决计算文档和查询词相似度的问题。向量空间模型中一般采用向量之间的夹角余弦值

作为向量是否相似的度量依据。
向量间的夹角余弦计算公式:

向量间的夹角余弦计算公式
向量间的夹角余弦计算公式

为了简化描述,在此前提到的关键词量化过程中采用词频作为向量化中每个向量的分量,而事实上却采用了经典的TF/IDF方法为每个关键词进行更加合理的量化。下一章深圳SEO将带着大家走进经典的TF/IDF方法,领略信息检索的精髓。

本文出自深圳SEO公司,未经允许不得转载:深圳SEO公司-深圳SEO服务公司 » 搜索引擎的向量空间模型
分享到: 更多 (0)

评论 抢沙发

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址