百度核心算法算法

排名规则在百度中是很繁琐的一个环节,繁琐的算法才能保证给用户最好的信息。但是 数据的处理往往占用了很大的计算资源,所以百度不断完善排名的相关规则。在 16 年 7 月 会上线的全新计算规则将会大大降低计算的部分,而是通过简单的规则判断给予排名。流程 如下: 数据预处理 – 检索处理 – 索引处理 – 系数处理 – 数据包处理 – 行为处理 算法价值:百度核心算法,内部流出

  • 数据预处理 前面的要通过站内更新和站外链接实现,在现在的环境中,百度对站内看的比较重,在 爬虫爬取的同时,就会对当前页面给予一个基础分值,低于基础分值的,不收录。只有过了 基础分值的才会建立词库索引。关于百度对网站判定,在不同时期有不同的参数参与其中。

数据预处理中,百度会根据不同时期的网站执行不同的预处理手段,当然会比整理的详 细复杂的多,但是元素都包含进去了。绿萝算法中提到网站文章的排版问题,还是通过代码 和爱思码来的。

检索处理和索引处理,为核心的东西,原理倒是都公开的,实际计算也不难,完全靠数 据说话的。这两样处理只是为了给倒排索引列表服务,对排名没有任何干涉。其中有新增加 的词库匹配,会在下一批算法中过来,作用暂时不详。检索不只是包含了词库,还有时间, 格式等等,是为高级索引服务的。索引过程中,有个站内索引,是为职业搜索服务的,带来 的体验分值是想当的高。

  • 系数处理(初始值 R、推荐度、信任值) 1.预处理中的系数,涉及到初始值,这个每个网站都一样,只是在后面的减分中会产生差距。 所以,前 45 天的认真程度,会很长时间关系到这个网站在百度中的好坏。 2.百度是有权重的,分值为 20 个档。0-19,只是这个权重不参与排名计算。这个权重值影 响其他系数的变动。推荐值,信任值。比如,权重 19 的网站信任值积累速度肯定比权重 18 的快。赋予的信任值衰减度也肯定低一些。百度考虑放出权重值供大家查询,应该在七月份 之后。 3.推荐度:推荐度的理解,就是以前老版本的权重。换链接的时候,都会考虑这个链接会不 会传递权重,其实这个东西就是推荐度。具体数值为 1,2,3,具体数值代表的意义不详,只 知道是类别的区分。公式为周期衰减型的微积分公式,简单的表格统计几次计算(单位传递 值 1000,只统计小数点后四位):

为了计算方便,传递值默认为一千,实际每次传递值默认数值都不一样,和权重有最直 接的关系,最高和最低相差悬殊几百倍都有可能,公式为著名的金字塔模型公式(也叫能量 金字塔)。我就不去计算了,百度没有做任何修改,或者有修改没公开出来。

所以,根据滞留算法中相关所得,做外链,做第二层级的外链性价比最高。一个外链, 最多传递五个层级下去,当然,这里计算的是每个层级中的网站,都只有一个对外链接,就 是说,第二层级,只有一个第三层级的链接。如果有五个,那么推荐值要平均除以 5 的。 第二周期大致为第一周期的百分之三十,第三周期大致为第一周期的百分之五。

周期为两种(自然天数四十五天,就是说,第一周期 45 天结束之后,自动进入第二周 期)

前一周期推荐值溢出,自动进入第二周期。具体推荐值多少溢出,和网站权重有关,权 重越高,推荐值上限越高,就跟游戏等级的当前经验值。只不过,推荐度满了不会升级。推 荐值溢出之后剩余多少进入下个周期计算,和信任度有关

前一周期结束,当前积累的推荐值计算之后,会并入第二周期中计算。这个公式有五个, 太难算,且没有实际应用价值,就没有去算。这个每次并非递减,而是递增了。

推荐度激活:也叫外链激活,百度识别链接之后,在统计处理(统计当前网站和链接网站相关)之后,会自动激活推荐度的传递,激活之后,蜘蛛每爬取一次,都会传递一次,一 个链接,最多传递 199 次。或者用户通过百度进入当前页面点击这个链接,也会激活推荐度。 这个一般在当前链接已经失去传递推荐度之后,可以这样激活一次,重新进入传递的过程。 (百度认为,你发的外链没人点,那就是浪费。会在今后的更新中,识别这种点击行为,并 统计到推荐度传递值中。暂时没有生效。)

4.传递值和推荐度的关系:两者实际没有直接的换算关系,推荐度的数值,1,2,3 只是类型的 分类,而推荐值是具体的分值,是加分制和衰减制的,和推荐度的 1,2 还是 3,都没有最直 接的关系,今后会有相关的更新,暂时没有消息。

 5.推荐传递的规则:类聚和群集,并非所有链接都会产生推荐值传递行为。

 6.推荐值对排名的影响:网站吸收过来的被推荐值数值是变动的,这个数值并不会因为有链 接的导出而减少。导出多少和这个推荐值没有任何关系。变动的被推荐数值在预处理中占有 很大的比重。但是在系数处理中,推荐值所能体现的作用很小,被缩小的十倍左右(公式中 体现,百度使用了重力系数 g=9.8)

7.推荐度的生效时间,约 18 天左右。也就是说,一个有推荐度的链接,给别人的推荐值虽 然传递过去了,但是对方要生效,并进入计算,计算后并调整结果,需要 18 时间。这之间 主要是过滤垃圾链接,百度过滤链接的算法不是一直执行的,是周期性执行。

8.推荐值溢出时,会给网站增加一个单位的信任值。和推荐值不同,信任值得数值都很小, 一天增加个 0.1 就算一个很大的数值了。推荐度能一定程度上提升网站信任度的信任值的变 化,在以前,几乎是一比一的关系,到了第三代算法环境时候,百度就大大降低了这个变化。

9.信任值:信任值更多的是绿萝算法给予的判定标准,主要是网站质量。信任值本身不参与 排名计算,但是会最直接的影响网站的稳定和观察停滞最大时间。网站降权了,有信任值的 也不会恢复,需要有状态爬虫的访问,才能解除降权。信任值网站能提高状态爬虫的访问周 期(不然半年一次)降权的最后审核,也是这个爬虫的作用。简单的理解为数值前面加个负 号。

10.信任值怎么来:和收录量,收录衰减率两者有关系。

11.收录量,site 值为准,site 没有的,不代表没有收录,收录了没有放出来,为啥没有放出 来呢,是因为当前页面存在异常,一般都是关键词异常,页面打开异常。信任值高的时候, 会直接放出来,以后发现问题,会删掉。信任值不高,就会等过滤完,符合就放,不符合就 不放。这里有很多过滤机制,严重的会永远不放,但是不会影响网站其他页面,也只是对当 前页面生效。同样的,放出一个页面,也对排名没啥变化,只能提升一下信任值。信任值的 增加和这两个参数没有具体的公式,只有一个简单的范围规则:见下表

注,r 和 R 对网站的影响不是终身的,网站改版,更换网站主题内容,更换所有人之类的操 作,都会重置这两个参数。百度对医疗类网站的态度:所有医疗类初始 r 都为 10 信任值对词库的关系(无限模型)。

 12.信任值对网站的作用:

l 网站作弊处理轻重(点击也属于作弊)

l 内页收录和内页预排名

l 推荐值周期溢出剩余值

l 词库的多少(这一条对新闻源不生效)

l 信任值影响网站图片收录和排名(图片排名还和 alt 有关)

  1. 信任值的高低,直接影响词库的多少,有些网站,做的很好,但是内页几乎都没有什么好 排名,长尾词建设的很困难。这个时候就需要信任值分流来操作,降低首页关键词排名,提 升内页关键词排名。这个过程不可逆转,因为信任值属于消耗品。
本文出自深圳SEO,未经允许不得转载:深圳SEO-深圳SEO技术分享博客-微笑 » 百度核心算法算法
分享到: 更多 (0)
  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址
-->