深圳SEO公司
欢迎您光临浏览!

深圳SEO带大家来走进搜索引擎的知识准备

深圳SEO告诉大家在搜索引擎的4大系统中第3个系统称为“索引系统”。该系统就好像搜索引擎的数据大本营,在这里存储了并索引了数以亿计的网页。在搜索引擎早期的发展中,能够索引的网页数量代表了整个行业的技术发展水平。由于需要支持多用户同时检索,索引系统还必须提供低于秒级的检索时间,因此“存得下”和“查得快”是围绕本节的重要话题。 与前几个章节一样,一起来做一下热身活动,了解一些基本概念。

信息
信息是能够被传达和理解的消息,是通过学习和经历获得的知识,是用来做出判断的一组事实[WordNet],不同的角度上对信息具有不同的解释。这里我们认为信息就是结构化的网页数据,即一组有价值的数据的集合。

索引
索引也是一种信息,可以说是信息的信息,或者说是描述信息的信息。例如,书中包含的目录。其中每一条目就是一个索引,用来标识某个章节的页码。帮助读者快速浏览,索引就是这样一种短小精炼的检索信息的信息。

倒侧排索引、侧排表、临时倒排文件、最终侧排文件
为了便于理解盛个章节笔者做出如下定义:
倒排表是指存放在内存中的能够追加倒排记录的倒排索引。倒排表是迷你的倒排索引。

临时倒排文件是指存放在磁盘中,以文件的形式存储的不能够追加倒排记录的倒排索引。临时倒排文件是中等规模的倒排索引。

最终倒排文件是指由存放在磁盘中,以文件的形式存储的临时倒排文件归并得到的倒排索引。最终倒排文件是较大规模的倒排索引。

倒排索引作为抽像概念,而倒排表、临时侧排文件、最终倒排文件是倒排索引的三种不同的表现形式。

其他概念
索引部分概念很多,因此本章第二节至第四节分别介绍全文检索、文档编号、正排索引、倒排索引的基本概念。在集中理解索引系统的主要概念后,接下来再了解索引创建中的一些计算细节。

本文出自深圳SEO公司,未经允许不得转载:深圳SEO-微笑SEO服务公司 » 深圳SEO带大家来走进搜索引擎的知识准备
分享到: 更多 (0)

评论 抢沙发

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址