搜索引擎要点(google为例)
更新时间:2023-10-28 21:01:01 阅读量: 综合文库 文档下载
搜索引擎一般分类:
全文搜索引擎(Full Text Search Engine) 关键词型搜索引擎,网页搜索引擎;
由蜘蛛程序以某种策略自动地在互联网中搜集和发现信息,由索引器为搜集到的信息建立索引,由检索器根据用户的查询输入检索索引库,并将查询结果返回给用户。服务方式是面向网页的全文检索服务;
该类搜索引擎的优点是信息量大、更新及时、无需人工干预;
缺点是返回信息过多,有很多无关信息,用户必须从结果中进行筛选。 目录型搜索引擎(Search index/Directory) 目录索引;
以人工方式或半自动方式搜集信息,由编辑员查看信息之后,人工形成信息摘要,并将信息置于事先确定的分类框架中。信息大多面向网站,提供目录浏览服务和直接检索服务。 该类搜索引擎因为加入了人的智能,所以信息准确、导航质量高; 缺点是需要人工介入、维护量大、信息量少、信息更新不及时;
实际上,从现代意义的搜索引擎角度来看,这种目录索引算不上是真正的搜索引擎。 元搜索引擎(META Search Engine)
集成搜索引擎,基于搜索引擎的搜索引擎; 这类搜索引擎没有自己的数据,而是将用户的查询请求同时向多个搜索引擎递交,将返回的结果进行重复排除、重新排序等处理后,作为自己的结果返回给用户;服务方式为面向网页的全文检索;
这类搜索引擎的优点是返回结果的信息量更大、更全;缺点是不能够充分使用所调用搜索引擎的功能,用户需要做更多的筛选。
一般来讲,搜索引擎主要由四个部分构成: 搜索器、索引器、检索器、用户接口 搜索器
网络蜘蛛、爬虫程序;
搜索器的功能是在互联网中漫游,发现和搜集信息。它常常是一个计算机程序,日夜不停地运行。它要尽可能多、尽可能快地搜集各种类型的新信息,同时因为互联网上的信息更新很快,所以还要定期更新已经搜集过的旧信息,以避免死连接和无效连接。 索引器
索引器的功能是理解搜索器所搜索的信息,解析并从中抽取出索引项,用于表示文档以及生成文档库的索引表。
索引项有客观索引项和内容索引项两种:
客观项与文档的语意内容无关,如作者名、URL、更新时间、编码、长度、链接流行度(Link Popularity)等等;
内容索引项是用来反映文档内容的,如关键词及其权重、短语、单字等等。内容索引项可以分为单索引项和多索引项(或称短语索引项)两种。单索引项对于英文来讲是英语单词,比较容易提取,因为单词之间有天然的分隔符(空格);对于中文等连续书写的语言,必须进行词语的切分。
检索器
检索器的功能是根据用户的查询在索引库中快速检索出文档,进行文档与查询的相关度评价,对将要输出的结果进行排序,并实现某种用户相关性反馈机制。
检索器常用的信息检索模型有集合理论模型、代数模型、概率模型和混合模型四种。 用户接口
用户接口的作用是输入用户查询、显示查询结果、提供用户相关性反馈机制。
主要的目的是方便用户使用搜索引擎,高效率、多方式地从搜索引擎中得到有效、及时的信息。
用户接口的设计和实现使用人机交互的理论和方法,以充分适应人类的思维习惯。
? 搜集
? 批量搜集,增量式搜集;搜集目标,搜集策略
? 预处理
? 关键词提取;重复网页消除;链接分析;索引
? 服务
? 查询方式和匹配;结果排序;文档摘要
Google基本工作原理 后台处理基本过程:
用网络爬虫遍历整个网络;
将所有网页的拷贝存放于文件服务器; 建立网页索引,存放于索引服务器;
执行搜索时,利用“超级电脑”搜寻资料库;
超级电脑:新型的服务器设置;在此之前,多数搜索引擎都采用一些大型服务器,当遇到负载高峰时,便会出现速度放慢的现象;
Google 则采用联网的价格低廉的PC 机组成超级电脑,来快速查找每个查询的答案 加快了响应时间,增加了可伸缩性,降低了成本; 结果:响应请求的速度极快;
Google在给出页面排序时也有两条标准: 一是看有多少超级链接指向它;
二是要看超级链接指向它的那个页面重要不重要; 这两条直观的想法就是PageRank算法的数学基础,也是Google搜索引擎最基本的工作原理。
计算公式: rj:网页j的PageRank;
Pj:链接到页面j的页面集合; ni:从页面i出发的链接数; Google矩阵即网页链接矩阵
Am?n?(ai,j)ai,j???1/N(i) 存在从网页i指向网页j的超链接j的超链接?0 网页i不存在指向网页
N(i)表示从网页i向外的链接数目PageRank求解基本思路
? PageRank是Google矩阵的主特征向量
? Google矩阵A;
? 记A=AT :转移概率矩阵,转置是为了关注“被”链接的情况;
? A的每个列向量之和为全概率1,各个行向量表示了状态之间的转移概率;
? 令r= PageRank,为一个列向量,则有:
? 求解Ar=r;
? A的最大特征值为1 (主特征值);
? r是主特征值1对应的特征向量。
转移概率矩阵
五、相关性:文本匹配
简单度量:词频
? 词频系数TFi=关键词i出现的次数/网页总字数 ? 例如:查询“搜索引擎的原理”;某个网页中一共有1000个词,其中“搜索引擎”、
“的”和“原理”分别出现了2 次、35 次和5 次,则它们的词频就分别是0.002、
0.035 和0.005;将这三个数相加,其和0.042 就是相应网页和特定查询“搜索引擎的原理”相关性的一个简单的度量。
交叉熵
? 交叉熵IDFi=log (D/Di);D,全部网页数目;Di,关键词i在Di个网页中出现过;
? 例如,查询“搜索引擎的原理”:假定中文网页数是D=10亿;“的”在所有的网页中
都出现,即Di=10亿,IDFi= log (10亿/10亿) = log (1) = 0;“搜索引擎”在两百万个网页中出现,即Di=200万, IDFi= log (500) = 6.2;通用词“原理”出现在五亿个网页中,
则它的权重IDFi= log (2) = 0.7; 网页与查询的关系
那么给定一个查询,若仅考虑相关性,则相关网页的排名大致由加权词频来决定: 加权词频= (TF1*IDF1 + TF2*IDF2 + ... + TFN*IDFN)
结合PageRank,给定一个查询,则某网页的综合排名大致由相关性和网页排名乘积决定,即:PageRank*(TF1*IDF1 + TF2*IDF2 + ... + TFN*IDFN) 内部工作流程
①Google使用高速的分布式爬行器(Crawler)系统中的漫游遍历器(Googlebot)定时地遍历网页,将遍历到的网页送到存储服务器(Store Server)中;
②存储服务器使用zlib格式压缩软件将这些网页进行无损压缩处理后存入数据库Repository中。Repository获得了每个网页的完全Html代码后,对其压缩后的网页及URL进行分析,记录下网页长度、URL、URL长度和网页内容,并赋予每个网页一个文档号(docID); ③ 索引器(Indexer)从Repository中读取数据,以后做以下四步工作:
④ (a)将读取的数据解压缩后进行分析,它将网页中每个有意义的词进行统计后,转化为关键词(wordID)的若干索引项(Hits),生成索引项列表,该列表包括关键词、关键词的位置、关键词的大小和大小写状态等。索引项列表被存入到数据桶(Barrels)中,并生成以文档号(docID)部分排序的顺排档索引。
④(b)索引器除了对网页中有意义的词进行分析外,还分析网页的所有超文本链接,将其Anchor Text、URL指向等关键信息存入到Anchor文档库中。
④(c)索引器生成一个索引词表(Lexicon),它包括两个部分:关键词的列表和指针列表,用于倒排档文档相连接。
④(d)索引器还将分析过的网页编排成一个与Repository相连接的文档索引(Document Index),并记录下网页的URL和标题,以便可以准确查找出在Repository中存储的原网页内容。而且把没有分析的网页传给URL Server,以便在下一次工作流程中进行索引分析。 ⑤ URL分析器(URL Resolver)读取Anchor文档中的信息,然后做⑥中的工作
⑥ (a)将其锚文本(Anchor Text)所指向的URL转换成网页的docID;(b)将该docID与原网页的docID形成“链接对”,存入Link数据库中;(c)将Anchor Text指向的网页的docID与顺排档特殊索引项Anchor Hits相连接。
⑦ 数据库Link记录了网页的链接关系,用来计算网页的PageRank值。
⑧ 文档索引(Document Index)把没有进行索引分析的网页传递给URL Server,URL Server则向Crawler提供待遍历的URL,这样,这些未被索引的网页在下一次工作流程中将被索引分析。
⑨ 排序器(Sorter)对数据桶(Barrels)的顺排档索引重新进行排序,生成以关键词(wordID)为索引的倒排档索引。
⑩ 将生成的倒排档索引与先前由索引器产生的索引词表(Lexicon)相连接产生一个新的索引词表供搜索器(Searcher)使用。搜索器的功能是由网页服务器实现的,根据新产生的索引词表结合上述的文档索引(Document Index)和Link数据库计算的网页PageRank值来匹配检索
正在阅读:
搜索引擎要点(google为例)10-28
珠海商圈 - 图文03-14
最经典的拜年诗词 拜年祝福诗词02-22
心灵深处人迹罕至的区域人生感悟11-03
360浏览器收藏夹路径及收藏夹导出方法02-09
专升本阅读06-05
华中师范大学17年9月《教育技术前沿讲座》作业考核试题06-22
我在拜耳这三年 - 图文04-20
- 多层物业服务方案
- (审判实务)习惯法与少数民族地区民间纠纷解决问题(孙 潋)
- 人教版新课标六年级下册语文全册教案
- 词语打卡
- photoshop实习报告
- 钢结构设计原理综合测试2
- 2014年期末练习题
- 高中数学中的逆向思维解题方法探讨
- 名师原创 全国通用2014-2015学年高二寒假作业 政治(一)Word版
- 北航《建筑结构检测鉴定与加固》在线作业三
- XX县卫生监督所工程建设项目可行性研究报告
- 小学四年级观察作文经典评语
- 浅谈110KV变电站电气一次设计-程泉焱(1)
- 安全员考试题库
- 国家电网公司变电运维管理规定(试行)
- 义务教育课程标准稿征求意见提纲
- 教学秘书面试技巧
- 钢结构工程施工组织设计
- 水利工程概论论文
- 09届九年级数学第四次模拟试卷
- 要点
- 搜索引擎
- 浅谈《 钢铁是怎样炼成的》中保尔的坚强不屈的精神
- 记叙文写作(一)
- 基于“工作过程系统化”情境教学法在《数控综合实训》中的应用
- 06通勤车管理制度
- 几位POP歌手之我见
- 论高职院校图书馆的知识管理
- 投标文件书脊
- 百米跨栏基本动作教学设计
- 电子商务系统的分析 - 某网上餐饮公司进行系统分析
- 如何界定低于成本的投标报价
- 大学本科英语专业大三英语翻译作业4
- 人教新课标版初中七上《短文两篇 蝉 贝壳》教案
- 土建资料及cad,word,excel之间的转换 - 图文
- 2017年江西事业单位考试:真假话问题
- vb课程设计报告《打字游戏》
- 冀教版小学三年级科学下册《塑料》教案
- Thermo Forma 3951 Reach-In大容量CO2培养箱SOP
- 丝花塑胶工艺品项目可行性研究报告(发改立项备案+2013年最新案例范文)详细编制方案
- tomy-sx系列高压灭菌器sx300、sx500、sx700使用说明书
- 建筑工程测量实验报告(B5幅面,封面、封底为牛皮纸、里白纸,双面印刷)-1