主要内容来自在读的[《走进搜索引擎》(第2版)][1],同时也记录我在读这本书的时候的一些思考。
[1]: 潘雪峰. 走进搜索引擎(第2版) (Chinese Edition) ). 电子工业出版社. 2011.5
第1章 引言
搜索引擎的3种服务方式:目录式搜索引擎、全文搜索引擎、元搜索引擎。这三种分类还是于我在学校的时候看到的一样,而我如今对第三者已经记忆模糊。后来回忆,在初中的计算机基础的课本上就提到过元搜索引擎,但是这么多年过去了,元搜索引擎并没有发展起来,相反变得更加没有存在感。
搜索引擎的5个主要需求,即快、全、准、稳、省。
影响速度的原因包括分词的效果、索引库的效率、分布查询的处理能力和查询缓存的命中率等。
信息检索(Information retrieval)中使用查全率(Recall)作为衡量是否全面的指标,也叫作召回率,即查询出的相关网页数和全部相关网页数的比率。
信息检索中使用查准率(Precision)作为衡量检索准确的指标,即检索出的相关文档数于检索出的文档总数的比率。
在搜索引擎中查准比查全重要,查准与网页排序有关。
搜索引擎的4大系统,包括下载、分析、索引和查询,还可以将前3者划分为离线系统,查询作为在线系统。
第2章 搜索引擎的下载系统
任意一个网页可能被其他网页链接,这种链接称为“反向链接”,这个网页链接到其他网页,这种链接称为“正向链接”。
万维网具有蝴蝶结型(bow tie)结构,网页分为4种类型,蝴蝶结的中部(SCC,Strongly Connected Component),蝴蝶结的左部(IN,指向SCC,称为目录型网页,hub page,导航网页),蝴蝶结的右部(OUT,网页被中心部分指向,权威性网页,authority page),蝴蝶结的须脚(Tendrils,从左部链出到其他网页,或其他网页链入右部,或左部直接链入右部等,非连通分量DISC)。爬虫尽可能选择蝴蝶结的左部,或者中部的网页为起始访问结点集合(starting set of URLs)进行遍历。网页分为目录型网页和权威性网页。