深圳SEO公司
欢迎您光临浏览!

搜索引擎分析系统的结构图

本篇深圳SEO带大家认识下搜索引擎分析系统的结构图:分析系统在搜索引擎的架构中承担了网页结构化,网页消重,文本分词及PageRank计算4项基本任务。通过前面的分块学习,最后通过一个分析系统结构图来全面了解分析系统的动作方式。
分析系统结构图如图4-20所示:
分析系统结构图
其中Page库是下载系统通过爬虫下载到的原始网页,分析系统通过以下步骤完成对这些网页的分析工作。
1.经过一个网页结构化的过程,包括建立标签树并从网页中抽取有价值的属性,完成从原始网页打包成一个网页对象的过程。
2.网页消生模块丢弃冗余的页面,相似或相同的网页仅保留一个传给分词模块。
3.文本分词将正文切分成以词汇为单位的集合。
4.将分析的结果发往索模块,进行索引入库。
以上4个步骤中网页结构化,消重,分词这三项工作同路不计算,因此速度非常快。仅PageRank的计算非耗时,而且必须积累一定数据后才能生成一次数据(这里信息抽取过程得到的网页链接信息发往PageRank计算服务器)。由于执行一次PageRank的计算代价极大,因此采用离线计算方法。离线计算的结果是一个PageRank列表,其中包含每个网页的一个PageRank值。该值越高,网页的重要性越高,在检索时就越容易检索到。在索引系统中会利用该PageRank值对文档列表索引项的先后顺序产生影响,也就是越是重要的网页(PageRank值高)在索引中越能免占据有利的位置。回顾本章,网页分析系统的工作层层深入。除了第1步分析工作是为本层服务,其余的分析工作包括网页消重,分词及PageRank的计算都是为了索引系统查询系统服务,因此只有在深入了解索引系统和查询系统的原理后我们才能深刻理解这些分析系统工作的重大意义。接下来深圳SEO将继续带领大家走进搜索引擎系统中,领略索引系统的魅力。

本文出自深圳SEO公司,未经允许不得转载:深圳SEO-微笑SEO服务公司 » 搜索引擎分析系统的结构图
分享到: 更多 (0)

评论 抢沙发

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址