当前位置:深圳SEO > SEO技术 >

搜索引擎分词算法

发布时间:2015-10-13 17:13 来源:微笑SEO 类别:SEO技术

搜索引擎中文分词算法
基于字符串的分词算法
1.正向最大匹配:由左往右将文本里的几个连续字符与词表匹配,如果可以匹配上的话就切分出一个词来,但是最大匹配就要经过很多次的匹配才能切分出来。
2.逆向最大匹配:公式:M(A,B)=P(AB)/P(A)P(B),其中A表示一个字,B表示一个字,P(AB)表示AB相邻出现的概率,P(A)表示A在这篇文章中的频度,P(B)表示B在这篇文章中的频度;逆向最大匹配我们可以了解为反推理就可以,在算法上来说逆向比正向的算法结果更正确。
3.双向最大匹配:所谓双向就是在正向和逆向这两种算法都存在局限性上推出来补不足的,目的就是为了更准确的切分词。
4.最小切词:相信很不用怎么解释了吧,就是从一段语句或内容中切出最小的词,要注意的是不能有单字词和长度最小为2个字节。
5.综合分词:就是综合所有的分词算法,从而令到搜索结果可以更准确。
6.特征或标志切分和断点:这个知识已申请专利在此就不写出来,想了解的朋友可以网上一找就有长篇大论来介绍。
不得不说这两天在微笑SEO这个栏目下所更新的文章都跟算法有关,如果不是计算机专业的SEOER看起来会有点吃力;相信有朋友会问学习这点知识对SEO有什么用,可能从来都没有听过SEO还存在着这些知识点,微笑就在此简单说说学习这些对SEO有啥用,当你去优化一些小型的网站或者企业网站以上的这些知识是真的可有可无,学不学随意,但是当你接触一些大的门户站时就非常需要这些知识点了,就说一个实例做专频页的时候就需要知道搜索引擎是怎么切词分词的,当然开篇就说过在搜索引擎中中文分词比英文复杂得多。