搜索引擎要点（google为例）

更新时间：2023-10-28 21:01:01 阅读量：综合文库文档下载

说明：文章内容仅供预览，部分内容可能不全。下载后的文档，内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的，是否完整无缺。

搜索引擎一般分类：

全文搜索引擎(Full Text Search Engine) 关键词型搜索引擎，网页搜索引擎；

由蜘蛛程序以某种策略自动地在互联网中搜集和发现信息，由索引器为搜集到的信息建立索引，由检索器根据用户的查询输入检索索引库，并将查询结果返回给用户。服务方式是面向网页的全文检索服务；

该类搜索引擎的优点是信息量大、更新及时、无需人工干预；

缺点是返回信息过多，有很多无关信息，用户必须从结果中进行筛选。目录型搜索引擎(Search index/Directory) 目录索引；

以人工方式或半自动方式搜集信息，由编辑员查看信息之后，人工形成信息摘要，并将信息置于事先确定的分类框架中。信息大多面向网站，提供目录浏览服务和直接检索服务。该类搜索引擎因为加入了人的智能，所以信息准确、导航质量高；缺点是需要人工介入、维护量大、信息量少、信息更新不及时；

实际上，从现代意义的搜索引擎角度来看，这种目录索引算不上是真正的搜索引擎。元搜索引擎(META Search Engine)

集成搜索引擎，基于搜索引擎的搜索引擎；这类搜索引擎没有自己的数据，而是将用户的查询请求同时向多个搜索引擎递交，将返回的结果进行重复排除、重新排序等处理后，作为自己的结果返回给用户；服务方式为面向网页的全文检索；

这类搜索引擎的优点是返回结果的信息量更大、更全；缺点是不能够充分使用所调用搜索引擎的功能，用户需要做更多的筛选。

一般来讲，搜索引擎主要由四个部分构成：搜索器、索引器、检索器、用户接口搜索器

网络蜘蛛、爬虫程序；

搜索器的功能是在互联网中漫游，发现和搜集信息。它常常是一个计算机程序，日夜不停地运行。它要尽可能多、尽可能快地搜集各种类型的新信息，同时因为互联网上的信息更新很快，所以还要定期更新已经搜集过的旧信息，以避免死连接和无效连接。索引器

索引器的功能是理解搜索器所搜索的信息，解析并从中抽取出索引项，用于表示文档以及生成文档库的索引表。

索引项有客观索引项和内容索引项两种：

客观项与文档的语意内容无关，如作者名、URL、更新时间、编码、长度、链接流行度（Link Popularity）等等；

内容索引项是用来反映文档内容的，如关键词及其权重、短语、单字等等。内容索引项可以分为单索引项和多索引项（或称短语索引项）两种。单索引项对于英文来讲是英语单词，比较容易提取，因为单词之间有天然的分隔符（空格）；对于中文等连续书写的语言，必须进行词语的切分。

检索器

检索器的功能是根据用户的查询在索引库中快速检索出文档，进行文档与查询的相关度评价，对将要输出的结果进行排序，并实现某种用户相关性反馈机制。

检索器常用的信息检索模型有集合理论模型、代数模型、概率模型和混合模型四种。用户接口

用户接口的作用是输入用户查询、显示查询结果、提供用户相关性反馈机制。

主要的目的是方便用户使用搜索引擎，高效率、多方式地从搜索引擎中得到有效、及时的信息。

用户接口的设计和实现使用人机交互的理论和方法，以充分适应人类的思维习惯。

? 搜集

? 批量搜集，增量式搜集；搜集目标，搜集策略

? 预处理

? 关键词提取；重复网页消除；链接分析；索引

? 服务

? 查询方式和匹配；结果排序；文档摘要

Google基本工作原理后台处理基本过程：

用网络爬虫遍历整个网络；

将所有网页的拷贝存放于文件服务器；建立网页索引，存放于索引服务器；

执行搜索时，利用“超级电脑”搜寻资料库；

超级电脑：新型的服务器设置；在此之前，多数搜索引擎都采用一些大型服务器，当遇到负载高峰时，便会出现速度放慢的现象；

Google 则采用联网的价格低廉的PC 机组成超级电脑，来快速查找每个查询的答案加快了响应时间，增加了可伸缩性，降低了成本；结果：响应请求的速度极快；

Google在给出页面排序时也有两条标准：一是看有多少超级链接指向它；

二是要看超级链接指向它的那个页面重要不重要；这两条直观的想法就是PageRank算法的数学基础，也是Google搜索引擎最基本的工作原理。

计算公式： rj：网页j的PageRank；

Pj：链接到页面j的页面集合； ni：从页面i出发的链接数； Google矩阵即网页链接矩阵

Am?n?(ai,j)ai,j???1/N(i) 存在从网页i指向网页j的超链接j的超链接?0 网页i不存在指向网页

N(i)表示从网页i向外的链接数目PageRank求解基本思路

? PageRank是Google矩阵的主特征向量

? Google矩阵A；

? 记A=AT ：转移概率矩阵，转置是为了关注“被”链接的情况；

? A的每个列向量之和为全概率1，各个行向量表示了状态之间的转移概率；

? 令r= PageRank，为一个列向量，则有：

? 求解Ar=r；

? A的最大特征值为1 (主特征值)；

? r是主特征值1对应的特征向量。

转移概率矩阵

五、相关性：文本匹配

简单度量：词频

? 词频系数TFi＝关键词i出现的次数/网页总字数 ? 例如：查询“搜索引擎的原理”；某个网页中一共有1000个词，其中“搜索引擎”、

“的”和“原理”分别出现了2 次、35 次和5 次，则它们的词频就分别是0.002、

0.035 和0.005；将这三个数相加，其和0.042 就是相应网页和特定查询“搜索引擎的原理”相关性的一个简单的度量。

交叉熵

? 交叉熵IDFi＝log (D/Di)；D，全部网页数目;Di，关键词i在Di个网页中出现过;

? 例如，查询“搜索引擎的原理”：假定中文网页数是D=10亿；“的”在所有的网页中

都出现，即Di=10亿,IDFi= log (10亿/10亿) = log (1) = 0;“搜索引擎”在两百万个网页中出现，即Di=200万, IDFi= log (500) = 6.2;通用词“原理”出现在五亿个网页中，

则它的权重IDFi= log (2) = 0.7；网页与查询的关系

那么给定一个查询，若仅考虑相关性，则相关网页的排名大致由加权词频来决定：加权词频= (TF1*IDF1 + TF2*IDF2 + ... + TFN*IDFN)

结合PageRank，给定一个查询，则某网页的综合排名大致由相关性和网页排名乘积决定，即:PageRank*(TF1*IDF1 + TF2*IDF2 + ... + TFN*IDFN) 内部工作流程

①Google使用高速的分布式爬行器(Crawler)系统中的漫游遍历器(Googlebot)定时地遍历网页，将遍历到的网页送到存储服务器(Store Server)中；

②存储服务器使用zlib格式压缩软件将这些网页进行无损压缩处理后存入数据库Repository中。Repository获得了每个网页的完全Html代码后，对其压缩后的网页及URL进行分析，记录下网页长度、URL、URL长度和网页内容，并赋予每个网页一个文档号(docID)； ③ 索引器(Indexer)从Repository中读取数据，以后做以下四步工作：

④ (a)将读取的数据解压缩后进行分析，它将网页中每个有意义的词进行统计后，转化为关键词(wordID)的若干索引项(Hits)，生成索引项列表，该列表包括关键词、关键词的位置、关键词的大小和大小写状态等。索引项列表被存入到数据桶(Barrels)中，并生成以文档号(docID)部分排序的顺排档索引。

④(b)索引器除了对网页中有意义的词进行分析外，还分析网页的所有超文本链接，将其Anchor Text、URL指向等关键信息存入到Anchor文档库中。

④(c)索引器生成一个索引词表(Lexicon)，它包括两个部分：关键词的列表和指针列表，用于倒排档文档相连接。

④(d)索引器还将分析过的网页编排成一个与Repository相连接的文档索引(Document Index)，并记录下网页的URL和标题，以便可以准确查找出在Repository中存储的原网页内容。而且把没有分析的网页传给URL Server，以便在下一次工作流程中进行索引分析。 ⑤ URL分析器（URL Resolver）读取Anchor文档中的信息，然后做⑥中的工作

⑥ (a)将其锚文本(Anchor Text)所指向的URL转换成网页的docID；(b)将该docID与原网页的docID形成“链接对”，存入Link数据库中；(c)将Anchor Text指向的网页的docID与顺排档特殊索引项Anchor Hits相连接。

⑦ 数据库Link记录了网页的链接关系，用来计算网页的PageRank值。

⑧ 文档索引(Document Index)把没有进行索引分析的网页传递给URL Server，URL Server则向Crawler提供待遍历的URL，这样，这些未被索引的网页在下一次工作流程中将被索引分析。

⑨ 排序器(Sorter)对数据桶(Barrels)的顺排档索引重新进行排序，生成以关键词(wordID)为索引的倒排档索引。

⑩ 将生成的倒排档索引与先前由索引器产生的索引词表(Lexicon)相连接产生一个新的索引词表供搜索器(Searcher)使用。搜索器的功能是由网页服务器实现的，根据新产生的索引词表结合上述的文档索引(Document Index)和Link数据库计算的网页PageRank值来匹配检索

本文来源：https://www.bwwdw.com/article/wm42.html

相关文章：

正在阅读：

搜索引擎要点（google为例）10-28

珠海商圈 - 图文03-14

最经典的拜年诗词拜年祝福诗词02-22

心灵深处人迹罕至的区域人生感悟11-03

360浏览器收藏夹路径及收藏夹导出方法02-09

中国服务业分行业生产率变迁及异质性考察 - 图文01-31

专升本阅读06-05

华中师范大学17年9月《教育技术前沿讲座》作业考核试题06-22

我在拜耳这三年 - 图文04-20

《基础写作》2021-2022期末试题及答案04-07

上一篇：几种常用卫生行政执法文书的相互关系和制作要求下一篇：市场业务拓展费用及项目奖励办法