lucene索引结构
“lucene索引结构”相关的资料有哪些?“lucene索引结构”相关的范文有哪些?怎么写?下面是小编为您精心整理的“lucene索引结构”相关范文大全或资料大全,欢迎大家分享。
基于Lucene的分布式并行索引
计算机技术与发展第21卷 第2期.2Vo.l21 No
基于Lucene的分布式并行索引
唐华姣,何友全,徐小乐,徐 澄
2.重庆交通大学管理学院,重庆400074)
摘 要:索引技术是搜索引擎的核心技术之一,索引技术的好坏直接影响到搜索引擎的查准率以及对用户的响应速度。Lucene是一个优秀的全文检索引擎架构,采用高度优化的倒排索引结构并支持增量索引。但在实际应用Lucene时存在一个值得关注的问题:随着被索引文件的增多,索引时间成线性增长,导致建索引的过程会影响搜索体验;在搜索引擎应用中,当索引文件量达到一定等级时,搜索引擎就遇到性能瓶颈。在深入分析和研究Lucene索引机制的基础上,采用以内存为缓冲区建索引文件的分布式并行索引技术形成了一个可扩展的搜索引擎解决方案,极大地缓解了建索引给搜索带来的瓶颈问题。
关键词:索引技术;Lucene;搜索引擎;分布式并行索引
中图分类号:TP311 文献标识码:A 文章编号:1673-629X(2011)02-0123-04
1
1
1
2
(1.重庆交通大学信息科学与工程学院,重庆400074;
DistributedParallelIndexBasedonLucene
lucene学习
1. 基本概念
信息检索(IR)是指文档搜索、 文档内信息搜索或者文档相关的元数据搜索等操作。 文档:用于搜索的内容部件。
文档过滤器:将文本格式信息从原始内容中提取出来,便于后期建立搜索引擎文档。如Tika,与数据库的内容连接,DBSight、Hibernate Search、LuSQL、Compass和Oracle/Lucene集成项目。
词汇单元:即分词。词干提取器,如Snowball。
搜索质量主要由查准率(Precision)和查全率(Recall)来衡量。[1]P13 语法检查器: Lucene的 contrib目录提供了两个模块完成此功能。
查询对象: Lucene提供了一个称之为查询解析器(QueryParser),用它可以根据通用查询语法将用户输入的文本处理成查询对象。
查询搜索:査询检索索引并返回与査询语句匹配的文档,结果返回时 按照査询请求来排序。搜索查询组件涵盖了搜索引擎内部复杂的工作机制,Lucene正是 如此,它为你完成这一切。 倒排索引:inverted index
常见的搜索理论模型有如下3种。
■ 纯布尔模型(Pure Boolean model) 文档不管是否匹配查询请求,都不会被评分.在该模型下,匹配
lucene学习
1. 基本概念
信息检索(IR)是指文档搜索、 文档内信息搜索或者文档相关的元数据搜索等操作。 文档:用于搜索的内容部件。
文档过滤器:将文本格式信息从原始内容中提取出来,便于后期建立搜索引擎文档。如Tika,与数据库的内容连接,DBSight、Hibernate Search、LuSQL、Compass和Oracle/Lucene集成项目。
词汇单元:即分词。词干提取器,如Snowball。
搜索质量主要由查准率(Precision)和查全率(Recall)来衡量。[1]P13 语法检查器: Lucene的 contrib目录提供了两个模块完成此功能。
查询对象: Lucene提供了一个称之为查询解析器(QueryParser),用它可以根据通用查询语法将用户输入的文本处理成查询对象。
查询搜索:査询检索索引并返回与査询语句匹配的文档,结果返回时 按照査询请求来排序。搜索查询组件涵盖了搜索引擎内部复杂的工作机制,Lucene正是 如此,它为你完成这一切。 倒排索引:inverted index
常见的搜索理论模型有如下3种。
■ 纯布尔模型(Pure Boolean model) 文档不管是否匹配查询请求,都不会被评分.在该模型下,匹配
lucene全文检索精华
lucene全文检索
1 概念
全文检索(Full-Text Retrieval)是计算机程序通过扫描文章中的每一个词,对每一个词建立一个索引,指明该词在文章中出现的次数和位置。当用户查询时根据建立的索引查找,类似于通过字典的检索字表查字的过程.
1.1 lucene全文检索的特性
全文检索(Full-Text Retrieval)是指以文本作为检索对象,找出含有指定词汇的文本。全面、准确和快速是衡量全文检索系统的关键指标。
关于全文检索的特性,我们要知道:1,只处理文本。2,不处理语义。3,搜索时英文不区分大小写。4,结果列表有相关度排序。
下图就是显示“1+1等于几”这个搜索要求对应的结果。可以看到,是没有“2”这个结果的,结果页面都是出现了这些词的网页 .
1.2 全文检索的应用场景
我们使用Lucene,主要是做站内搜索,即对一个系统内的资源进行搜索。如BBS、BLOG中的文章搜索,网上商店中的商品搜索等。使用Lucene的项目有Eclipse、Jira等。一般不做互联网中资源的搜索,因为不易获取与管理海量资源(专业搜索方向的公司除外)。
2 第一个lunece程序
2.1 准备lucene的开发环境
搭建Lucene的开发环境只需要
IKAnalyzer分词器及lucene使用IKAnalyzer分析
IKAnalyzer版本 Jar包下载
IKAnalyzer3.2.8_bin 下载地址:
http://code.google.com/p/ik-analyzer/downloads/detail?name=IKAnalyzer3.2.8 bin.zip&can=2&q=
下载后包含说明及API文档(在目录doc3.2.8中)。
源码下载
http://code.google.com/p/ik-analyzer/downloads/detail?name=IKAnalyzer3.2.8 source.zip&can=2&q=
IKSegmentation浅析(纯IK分词)
IKSegmentation是IK中独立的分词器,和lucene没有关系。不继承,不扩展,不使用lucene相关的类。
IK主分词器构造函数
/**
* IK主分词器构造函数 * @param input
* @param isMaxWordLength 当为true时,分词器进行最大词长切分 */ public IKSegmentation(Reader input , boolean isMaxWordLength){ this.input =
SQL索引优化
(一)深入浅出理解索引结构
实际上,您可以把索引理解为一种特殊的目录。微软的SQL SERVER提供了两种索引:聚集索引(clustered index,也称聚类索引、簇集索引)和非聚集索引(nonclustered index,也称非聚类索引、非簇集索引)。下面,我们举例来说明一下聚集索引和非聚集索引的区别:
其实,我们的汉语字典的正文本身就是一个聚集索引。比如,我们要查“安”字,就会很自然地翻开字典的前几页,因为“安”的拼音是“an”,而按照拼音排序汉字的字典是以英文字母“a”开头并以“z”结尾的,那么“安”字就自然地排在字典的前部。如果您翻完了所有以“a”开头的部分仍然找不到这个字,那么就说明您的字典中没有这个字;同样的,如果查“张”字,那您也会将您的字典翻到最后部分,因为“张”的拼音是“zhang”。也就是说,字典的正文部分本身就是一个目录,您不须要再去查其他目录来找到您须要找的内容。
我们把这种正文内容本身就是一种按照一定准则排列的目录称为“聚集索引”。
如果您认识某个字,您可以高速地从自典中查到这个字。但您也可能会遇到您不认识的字,不知道它的发音,这时候,您就不能按照刚才的要领找到您要查的字,而须要去根据“偏旁部首
评审因素索引表
评审因素索引表
序号 评分项目 对本招标需求(包括本信息化工程建设内容、目的及功能,所需设备性能指标及技术参数、供货时间,技术服务、技术合作等)的分析符合招标文件要求 ①质量管理的资源配置合理 质量管理制度能确保本工程质量 投标文件的章节、页码 1.1需求分析 1.2质量管理 与措施 1. 技术方案 1.3货物组件 (含软件)的配置 1.4安全管理体系 与措施 1.5环境保护管理 体系与措施 1.6工程进度 计划与措施 P 421 ~P 423 P 517 ~P 519 P 538 ~P 544 ②拟用信息采集、传输、处理以及信息管理权限(完善的系统管理和用户组策略)P 503 ~P 507 完全能满足本工程信息对安全性的要求 ③丰富的前端水雨情测报、符合水文规范的数据采集传输,后端防汛抗旱综合信息系统集成以及历史数据整合经验能满足和兼顾本工程整体信息化建设的需要。 ④成品质量检验措施符合国家规定; 所需设备交货开箱质量检验方法合理; 系统功能测试计划全面、具体 P 523 ~P 529 P 545 P 508 P 530 ~P 533 组件配置严格响应招标文件,拟采
Unique索引优化实践
Unique索引优化实践
胡月军(一浪)
Unique索引,有时也称Primary Key索引,顾名思义就是对于这个索引字段每个doc的值都是唯一的,如各种id字段:product id,customer id, campaign id和bidword id等。这种类型的索引一般用来进行高效的查询,最典型的应用场景就是进行附表join查询,即对主表中查到的每一个doc,都在附表中查询其对应的附表doc信息。所以,对这种类型的索引进行优化会对整体查询性能有很好的提升,特别是在主表查询的结果很多的情况下。本文主要总结一下对于这种类型索引的优化实践,包括全量和实时增量的情况。
我们知道,在全量建索引时,在内存中一般用开链的哈希表来存储Token的Hash值及其倒排链的信息。假设有N个不同的tokens,那么这个hash数组的大小一般是取第一个大于N*(5/3)的质数P。结构如下图所示:
图1: 全量索引在内存中的开链哈希表结构图
当一个段的索引建完以后,这个内存中的Hash表里面的tokens的哈希值及包含其倒排链和occ链等元信息的keyword terms一般被转成如下的三种数据结构之一存在文件中: 1.
诗经研究书目索引
《诗经》研究书目索引
《诗经》书目索引(晚清时期) 书目名称 作者姓名 出版单位 出版时间
毛诗韵例 丁以此 国粹学报总71期;国学卮林1期 1910-9 诗外别传 (明) 袁黄撰 吴江柳氏红格抄本 1910
诗经恒解(清) 刘沅辑注 预诚堂刻本;制福楼刊本 1910 王风笺题(清) 丁立诚撰 钱塘丁氏嘉惠堂铅印本 1910 诗经白话注 钱荣国 江阴礼延高等小学堂 1908 诗经白话注 钱荣国 江阴礼延高等小学堂 1908 诗不殄不瑕义 孙仲容 国粹学报总57期 1909-07
《诗经》书目索引(民国时期:1912——1931) 书目名称 作者姓名 出版单位 出版时间 读诗识名证义 金谷春 铅印本 1919 诗学质疑(清) 廖平撰 四川;存古书局 1918
诗纬新解(清) 廖平撰;黄鎔补证 四川:存古书局;四川:存古书局汇印本 1918 诗纬拾遗(清) 廖平撰 四川:存古书局 1918
乐诗考略 王国维 上海:仓圣明智大学排印本;广仓学宭丛书甲类第一集 1916 诗说标新(清) 狄郁撰 排印本 1916
易书诗礼四经正字考(清) 钟麐撰 吴兴刘氏嘉业堂刊本 1916 四益诗说 廖平 国学荟编 1915-3
评审因素索引表
评审因素索引表
序号 评分项目 对本招标需求(包括本信息化工程建设内容、目的及功能,所需设备性能指标及技术参数、供货时间,技术服务、技术合作等)的分析符合招标文件要求 ①质量管理的资源配置合理 质量管理制度能确保本工程质量 投标文件的章节、页码 1.1需求分析 1.2质量管理 与措施 1. 技术方案 1.3货物组件 (含软件)的配置 1.4安全管理体系 与措施 1.5环境保护管理 体系与措施 1.6工程进度 计划与措施 P 421 ~P 423 P 517 ~P 519 P 538 ~P 544 ②拟用信息采集、传输、处理以及信息管理权限(完善的系统管理和用户组策略)P 503 ~P 507 完全能满足本工程信息对安全性的要求 ③丰富的前端水雨情测报、符合水文规范的数据采集传输,后端防汛抗旱综合信息系统集成以及历史数据整合经验能满足和兼顾本工程整体信息化建设的需要。 ④成品质量检验措施符合国家规定; 所需设备交货开箱质量检验方法合理; 系统功能测试计划全面、具体 P 523 ~P 529 P 545 P 508 P 530 ~P 533 组件配置严格响应招标文件,拟采