深圳SEO
欢迎您光临!

搜索引擎关键词权重的量化方法TF/IDF

深圳SEO此网站上已经发表过关于TF\IDF的文章,但由于有朋友来信说那篇不够详细,所以今天在深圳SEO上再跟大家来详谈关键词权重量化的方法(IF/ID);在实际查询词及文档向量化应用中仅仅使用词频作为分量是不够的,例如我们曾经使用的例子中,查询“搜索引擎”的重要性,所以还是无法
取得良好的检索效果,接下来将介绍搜索引擎中经典的TF/IDF权重计算方法。

首先,我们来继续本章开关提到的信息熵这个概念深入理解概率与信息的关系。下面我们科学地给出“自信息”和“熵”的概念。定义1(自信息):任意随机事件的自信息量定义为该事件发生概率的对数的负值,设该事件x的概率为p(x),那么其自信息定义为:

概率对数的负值

自信息也可以理解为某个概率的事件进行编码需要的最小编码长度。定义2(熵):在信息论中自信息量是一个随机变量,它不能用来作为整个信源的信息测度。因此我们引入平均自信息量,即熵,定义为:

熵的最小编码长度

Claude Shannon(香农)的源代码[Shannon,1948]理论指出,最理想的编码方法是词汇表中第i个词汇预期出现的概率为Pi,那么该词汇需要分配-log2(Pi)个比特长度的编码。最佳编码符号中的比特数目表示符号的信息内容(infomation content),整个词汇表中的全部词汇的信息量的平均大小称为“概率分布的熵”,即:

-log2(Pi)个比特长度的编码

E用比特/符号为单位表示,表示词汇表平均每个词汇需要的加权平均编码长度[Baeza-Yeates en al,1999]。
在编码中用“熵”值衡量是否最佳编码。若以W表示采用一种编码方式后词汇表平均编码长度,则可能情况如下。
1.W>H(X):有冗余,不是最佳编码
2.W<H(X):不可能
3.W=H(X):最佳编码(一般W稍大于H(X))

关键词权重的量化方法(TF/IDF)

关键词权重的量化方法(TF/IDF)
关键词权重的量化方法(TF/IDF)
深圳SEO

这样一个句子在仅由这3个词构成的向量空间中被量化为(6,2,2),和前面仅使用词频作为量化标准的(2,1,1)相比,突出了“搜索引擎”这个关键词在句子的重要性。使得特别是一些诸如“我们”及“他们”这样的高频词能够很好地降低权重,而提高了低频词的权重。使得具有不同权重的词汇在进行向量相似度计算过程中发挥不同的作用,使得量化的结果更加科学。

本文出自深圳SEO公司,未经允许不得转载:深圳SEO公司-深圳SEO服务公司 » 搜索引擎关键词权重的量化方法TF/IDF
分享到: 更多 (0)

评论 抢沙发

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址