深圳SEO
欢迎您光临!

搜索引擎的下载系统的回顾和未来的发展

搜索引擎的主要需求
通过系统地学习.至此终于揭开了搜索引擎下载系统的神秘面纱.实现下载系统的主要需求,总结下来最主要是以下3点.
1.抓得全:通过网页更新策略(更新目录型网页)
2.抓得快:通过合作抓取策略。
3.代价低:通过宽度优先的遍历策略.最大深度策略及合理的网负更新策略。

当然这与一个实际的商用大型搜索引擎下载系统还有很大距离。例如大规模网页存储、DNS服务模块、反垃圾、反病毒、多爬虫的协调工作.以及爬虫监控等。读者如果亲自实现一个爬虫还会遇到很多困难。目前比较若名的关于爬虫的开源代码很多,例如Web sphinx和Heritrix等.读者可以在学习本章内容后。实际移与到这些开源代码的学习和使用中.以进一步加深对搜索引擎的下栽系统的认识.

虽然前人做出了巨大的努力。取得了大量的成果,然而爬虫的发展还远远没有停止。未来还有很多工作等待我们去探索,那么还有哪些工作可以做呢?
1.动态网页支持
Web上动态网页是静态网页的400-500倍,光明星球[brightP]公司宣称,存在的网页总数至少为5500亿个。这个数量是相当惊人的。目前几乎所有的搜索引擎都不能完全解决抓取动态网页的难题,因为这些动态网页通常都受到了账号和密码的保护,这也称为“深度挖掘问题”。
2.定向抓取
定向抓取通常也称为“聚焦爬虫”。目的是使爬虫的工作方式不再是漫无目的,而是在某种意图下抓取有价值且特定的网页。
3.抓取XML网页,以及DOC和PDF文件
抓取的内容突破HTML网页,也要抓取分析那些XML网页,以及DOC和PDF等文件.
4.智能分布抓取
随着Web的迅猛发展,可以考虑物理上分布多个可扩展Web搜集系统,在更广泛息义下以并行分布式工作。

本文出自深圳SEO公司,未经允许不得转载:深圳SEO公司-深圳SEO服务公司 » 搜索引擎的下载系统的回顾和未来的发展
分享到: 更多 (0)

评论 抢沙发

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址