搜索引擎要点(google为例)

更新时间:2023-10-28 21:01:01 阅读量: 综合文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

搜索引擎一般分类:

全文搜索引擎(Full Text Search Engine) 关键词型搜索引擎,网页搜索引擎;

由蜘蛛程序以某种策略自动地在互联网中搜集和发现信息,由索引器为搜集到的信息建立索引,由检索器根据用户的查询输入检索索引库,并将查询结果返回给用户。服务方式是面向网页的全文检索服务;

该类搜索引擎的优点是信息量大、更新及时、无需人工干预;

缺点是返回信息过多,有很多无关信息,用户必须从结果中进行筛选。 目录型搜索引擎(Search index/Directory) 目录索引;

以人工方式或半自动方式搜集信息,由编辑员查看信息之后,人工形成信息摘要,并将信息置于事先确定的分类框架中。信息大多面向网站,提供目录浏览服务和直接检索服务。 该类搜索引擎因为加入了人的智能,所以信息准确、导航质量高; 缺点是需要人工介入、维护量大、信息量少、信息更新不及时;

实际上,从现代意义的搜索引擎角度来看,这种目录索引算不上是真正的搜索引擎。 元搜索引擎(META Search Engine)

集成搜索引擎,基于搜索引擎的搜索引擎; 这类搜索引擎没有自己的数据,而是将用户的查询请求同时向多个搜索引擎递交,将返回的结果进行重复排除、重新排序等处理后,作为自己的结果返回给用户;服务方式为面向网页的全文检索;

这类搜索引擎的优点是返回结果的信息量更大、更全;缺点是不能够充分使用所调用搜索引擎的功能,用户需要做更多的筛选。

一般来讲,搜索引擎主要由四个部分构成: 搜索器、索引器、检索器、用户接口 搜索器

网络蜘蛛、爬虫程序;

搜索器的功能是在互联网中漫游,发现和搜集信息。它常常是一个计算机程序,日夜不停地运行。它要尽可能多、尽可能快地搜集各种类型的新信息,同时因为互联网上的信息更新很快,所以还要定期更新已经搜集过的旧信息,以避免死连接和无效连接。 索引器

索引器的功能是理解搜索器所搜索的信息,解析并从中抽取出索引项,用于表示文档以及生成文档库的索引表。

索引项有客观索引项和内容索引项两种:

客观项与文档的语意内容无关,如作者名、URL、更新时间、编码、长度、链接流行度(Link Popularity)等等;

内容索引项是用来反映文档内容的,如关键词及其权重、短语、单字等等。内容索引项可以分为单索引项和多索引项(或称短语索引项)两种。单索引项对于英文来讲是英语单词,比较容易提取,因为单词之间有天然的分隔符(空格);对于中文等连续书写的语言,必须进行词语的切分。

检索器

检索器的功能是根据用户的查询在索引库中快速检索出文档,进行文档与查询的相关度评价,对将要输出的结果进行排序,并实现某种用户相关性反馈机制。

检索器常用的信息检索模型有集合理论模型、代数模型、概率模型和混合模型四种。 用户接口

用户接口的作用是输入用户查询、显示查询结果、提供用户相关性反馈机制。

主要的目的是方便用户使用搜索引擎,高效率、多方式地从搜索引擎中得到有效、及时的信息。

用户接口的设计和实现使用人机交互的理论和方法,以充分适应人类的思维习惯。

? 搜集

? 批量搜集,增量式搜集;搜集目标,搜集策略

? 预处理

? 关键词提取;重复网页消除;链接分析;索引

? 服务

? 查询方式和匹配;结果排序;文档摘要

Google基本工作原理 后台处理基本过程:

用网络爬虫遍历整个网络;

将所有网页的拷贝存放于文件服务器; 建立网页索引,存放于索引服务器;

执行搜索时,利用“超级电脑”搜寻资料库;

超级电脑:新型的服务器设置;在此之前,多数搜索引擎都采用一些大型服务器,当遇到负载高峰时,便会出现速度放慢的现象;

Google 则采用联网的价格低廉的PC 机组成超级电脑,来快速查找每个查询的答案 加快了响应时间,增加了可伸缩性,降低了成本; 结果:响应请求的速度极快;

Google在给出页面排序时也有两条标准: 一是看有多少超级链接指向它;

二是要看超级链接指向它的那个页面重要不重要; 这两条直观的想法就是PageRank算法的数学基础,也是Google搜索引擎最基本的工作原理。

计算公式: rj:网页j的PageRank;

Pj:链接到页面j的页面集合; ni:从页面i出发的链接数; Google矩阵即网页链接矩阵

Am?n?(ai,j)ai,j???1/N(i) 存在从网页i指向网页j的超链接j的超链接?0 网页i不存在指向网页

N(i)表示从网页i向外的链接数目PageRank求解基本思路

? PageRank是Google矩阵的主特征向量

? Google矩阵A;

? 记A=AT :转移概率矩阵,转置是为了关注“被”链接的情况;

? A的每个列向量之和为全概率1,各个行向量表示了状态之间的转移概率;

? 令r= PageRank,为一个列向量,则有:

? 求解Ar=r;

? A的最大特征值为1 (主特征值);

? r是主特征值1对应的特征向量。

转移概率矩阵

五、相关性:文本匹配

简单度量:词频

? 词频系数TFi=关键词i出现的次数/网页总字数 ? 例如:查询“搜索引擎的原理”;某个网页中一共有1000个词,其中“搜索引擎”、

“的”和“原理”分别出现了2 次、35 次和5 次,则它们的词频就分别是0.002、

0.035 和0.005;将这三个数相加,其和0.042 就是相应网页和特定查询“搜索引擎的原理”相关性的一个简单的度量。

交叉熵

? 交叉熵IDFi=log (D/Di);D,全部网页数目;Di,关键词i在Di个网页中出现过;

? 例如,查询“搜索引擎的原理”:假定中文网页数是D=10亿;“的”在所有的网页中

都出现,即Di=10亿,IDFi= log (10亿/10亿) = log (1) = 0;“搜索引擎”在两百万个网页中出现,即Di=200万, IDFi= log (500) = 6.2;通用词“原理”出现在五亿个网页中,

则它的权重IDFi= log (2) = 0.7; 网页与查询的关系

那么给定一个查询,若仅考虑相关性,则相关网页的排名大致由加权词频来决定: 加权词频= (TF1*IDF1 + TF2*IDF2 + ... + TFN*IDFN)

结合PageRank,给定一个查询,则某网页的综合排名大致由相关性和网页排名乘积决定,即:PageRank*(TF1*IDF1 + TF2*IDF2 + ... + TFN*IDFN) 内部工作流程

①Google使用高速的分布式爬行器(Crawler)系统中的漫游遍历器(Googlebot)定时地遍历网页,将遍历到的网页送到存储服务器(Store Server)中;

②存储服务器使用zlib格式压缩软件将这些网页进行无损压缩处理后存入数据库Repository中。Repository获得了每个网页的完全Html代码后,对其压缩后的网页及URL进行分析,记录下网页长度、URL、URL长度和网页内容,并赋予每个网页一个文档号(docID); ③ 索引器(Indexer)从Repository中读取数据,以后做以下四步工作:

④ (a)将读取的数据解压缩后进行分析,它将网页中每个有意义的词进行统计后,转化为关键词(wordID)的若干索引项(Hits),生成索引项列表,该列表包括关键词、关键词的位置、关键词的大小和大小写状态等。索引项列表被存入到数据桶(Barrels)中,并生成以文档号(docID)部分排序的顺排档索引。

④(b)索引器除了对网页中有意义的词进行分析外,还分析网页的所有超文本链接,将其Anchor Text、URL指向等关键信息存入到Anchor文档库中。

④(c)索引器生成一个索引词表(Lexicon),它包括两个部分:关键词的列表和指针列表,用于倒排档文档相连接。

④(d)索引器还将分析过的网页编排成一个与Repository相连接的文档索引(Document Index),并记录下网页的URL和标题,以便可以准确查找出在Repository中存储的原网页内容。而且把没有分析的网页传给URL Server,以便在下一次工作流程中进行索引分析。 ⑤ URL分析器(URL Resolver)读取Anchor文档中的信息,然后做⑥中的工作

⑥ (a)将其锚文本(Anchor Text)所指向的URL转换成网页的docID;(b)将该docID与原网页的docID形成“链接对”,存入Link数据库中;(c)将Anchor Text指向的网页的docID与顺排档特殊索引项Anchor Hits相连接。

⑦ 数据库Link记录了网页的链接关系,用来计算网页的PageRank值。

⑧ 文档索引(Document Index)把没有进行索引分析的网页传递给URL Server,URL Server则向Crawler提供待遍历的URL,这样,这些未被索引的网页在下一次工作流程中将被索引分析。

⑨ 排序器(Sorter)对数据桶(Barrels)的顺排档索引重新进行排序,生成以关键词(wordID)为索引的倒排档索引。

⑩ 将生成的倒排档索引与先前由索引器产生的索引词表(Lexicon)相连接产生一个新的索引词表供搜索器(Searcher)使用。搜索器的功能是由网页服务器实现的,根据新产生的索引词表结合上述的文档索引(Document Index)和Link数据库计算的网页PageRank值来匹配检索

本文来源:https://www.bwwdw.com/article/wm42.html

Top