中文分词在标准检索中的应用

更新时间:2024-07-08 12:51:01 阅读量: 综合文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

中文分词在标准信息检索中的应用

近年来,随着“三证合一、一照一码”、“企业标准声明公开”等政策的逐步落实,标准专业机构纷纷打破原有的工作模式,加大了对标准在人员、资金、科研等方面的投入,带来了全新的标准服务模式,如浙江标准化院推出综合性标准服务平台和企业版标准信息管理系统,极大地方便了标准人员的工作。在这些标准服务平台和信息管理系统中,使用最多的功能是标准题录信息的检索,涉及中文检索的内容主要有标准中文名称、摘要和全文。

中文中的词语是由汉字组成的最小的有意义的语句单位,词语之间没有明显的区分标记,而英文单词之间是以空格作为自然分界符。现代中文里,双音节词语占的比重最大,也有单音节词语,如口、厂、洗、染。中文分词是将连续的汉字序列按照一定的规范重新组合成词语序列的过程,主要应用于智能搜索领域,如百度、搜狗等网站的搜索功能。本文介绍如何通过建立简易标准分词词典库,然后运用基于该标准词典库的三种分词方法对输入的检索语句进行分词,最后依据这些分词检索标准的中文名称。

本文选取国家标准化管理委员会网站公布的4.88万条国家标准(含废止)构建标准检索库,选取环境保护类的国家强制性标准166条,构建简易标准分词词典库(以下简称标准词典库)。分词原则主要选取双音节词语,如果截取一个词语影响语义则选择不截取,如“排放口”不截取成“排放”和“口”,后两个词虽然有独立语义,但合在一起表达的意思更完整,类似词语还有“发动机”、“固体废物”、

“汽车压件”等。这些国家标准中文名称进行人工分词后的全部词语有323个,出现次数较多的前30个词语参见表1。 词语 标准 水 方法 保护 固体废物 噪声 污染 废 次数(个) 词语 118 排放 33 环境 25 测量 15 汽车 13 进口 10 中国 8 质量 7 发动机 次数(个) 词语 次数(个) 93 26 17 13 11 10 7 词语 工业 限值 废物 用作 阶段 排气 海洋 次数(个) 58 26 17 13 10 10 7 98 污染物 28 控制 23 大气 14 原料 13 鉴别 10 危险 8 摩托车 7 表1 标准词典库部分词语及在166个国家标准中出现的次数

中文分词方法有许多种,本文介绍正向最大匹配法、逆向最大匹配法和双向最大匹配法三种。最大匹配法是指假设分词词典库中的最长词有i个汉字,取待处理检索语句的前i个汉字作为匹配词语,在分词词典库中检索。如果能检索到,将该i个汉字截取出来,剩余汉字开始匹配。如果不能检索到,将该匹配词语的最后一个汉字去掉,对其余i-1个汉字重新在分词词典库中检索。重复以上步骤,直到该匹配词语能检索到或者只剩一个汉字。以此类推,待处理检索语句的其余汉字也做同样方法的匹配,直到匹配完所有的词语或汉字。正向匹配法是指从前向后匹配词语,逆向匹配法是指从后向前匹配词语,双向匹配法是指用正向匹配法和逆向匹配法分别匹配词语,如果匹配结果相同,采用这些分词词语;如果匹配结果不相同,采用总词语数最少或者优化后的词语最少的分词词语。

下面,以输入国家标准GB/T 1.1-2009的中文名称“标准化工作导则 第1部分:标准的结构和编写”为例,说明上述三种匹配方法的

实现过程。标准词典库中的最长词是“混装制剂类”5个汉字,最大匹配字数就是5个汉字,每次检索相应减少1个汉字,直到检索完成。如果待处理中文语句中有空格、数字、标点符号等自然分隔符,优先截取这些符号之前的语句作为检索词语,进行匹配。 1、正向最大匹配法的分词过程:

从前向后截取5个汉字是“标准化工作”,在标准词典库中检索。能检索到,再从第6个汉字截取5个汉字;不能检索到,则把“标准化工作”每次从后面减少1个汉字。

第1次检索词:“标准化工作”,5字词典不能检索到; 第2次检索词:“标准化工”,4字词典不能检索到; 第3次检索词:“标准化”,3字词典不能检索到; 第4次检索词:“标准”,2字词典中能检索到。

第1次分词完成,找到词语“标准”,剩余检索语句“化工作导则 第1部分:标准的结构和编写”。以此类推,最后的分词结果是“标准/化/工/作/导/则/第1/部分/标准/的/结/构/和/编/写”。其中,“标准/第1/部分/标准”词语属于词典词。因为标准词典库的不完善,导致“工作/导则/结构/编写”词语没有被截取,这类词语属于非词典词。

2、逆向最大匹配法的分词过程:

从后向前截取5个汉字是“结构和编写”,在标准词典库中检索。能检索到,再从倒数第6个汉字向前截取5个汉字;不能检索到,则把“结构和编写”每次从前面减少1个汉字。

第1次检索词:“结构和编写”,5字词典不能检索到; 第2次检索词:“构和编写”,4字词典不能检索到; 第3次检索词:“和编写”,3字词典不能检索到; 第4次检索词:“编写”,2字词典不能检索到; 第5次检索词:“写”,1字词典不能检索到;

第1次分词完成,没有找到词语。第2次分词截取5个字符为“的结构和编”,以此类推,最后的分词结果是“标准/化/工/作/导/则/第1/部分/标准/的/结/构/和/编/写”。 3、双向最大匹配法的分词过程:

在上面例子中,正向最大匹配法和逆向最大匹配法的分词结果都是“标准/化/工/作/导/则/第1/部分/标准/的/结/构/和/编/写”,则双向最大匹配法直接采用该分词结果。在标准词典库中增加2个分词“化工”、“工作”,正向最大匹配法的分词结果是“标准/化工/作/导/则/第1/部分/标准/的/结/构/和/编/写”,逆向最大匹配法的分词结果是“标准/化/工作/导/则/第1/部分/标准/的/结/构/和/编/写”,两者的分词区别是“化工/作”和“化/工作”,可以看出后者是正确的结果。这里引入另一个原则,如果分词结果不同而总分词数相同,采用逆向最大匹配法的分词结果。

双向最大匹配法的另一个原则是采用单字词语最少的分词结果。例如“标准研究院士”在大数据分词词典库中,正向最大匹配法的结果是“标准研究院/士”,逆向最大匹配法的分词结果是“标准/研究/院士”,前者有1个单字词语,后者没有,因此选择后者的分词结

果。

在标准词典库中添加“标准化工作”、“结构”、“编写”词语,双向最大匹配法的分词结果是“标准化工作/导/则/第1/部分/标准/的/结构/和/编写”。分别输入标准词典库中的词语“标准化工作”、“第1”、“部分”、“标准”、“结构”、“编写”,在标准检索库中检索的结果参见表2。

词语 标准化工作 第1 部分 标准 结构 编写 表2 利用分词词语检索国家标准的结果

含有词语的标准数量(条) 34 3121 9962 1605 603 59 从表2中可以看出,使用5字词语“标准化工作”检索出来的结果也能符合检索要求,因此,除直接检索输入的语句外,使用分词后的多字词语检索也能满足人们的检索需求,这就是智能搜索引擎利用分词技术实现的检索语句的搜索功能。

以上方法同样适用于标准的摘要和全文检索。大多数标准搜索引擎检索摘要和全文时基于关键词匹配,在区分同形异义和关联同义词时存在较大局限。借助中文分词技术,标准搜索引擎可以预处理输入的检索语句,建立以关键词为基础的查询分词库,通过“模糊化咨询,

智能化回答”,满足标准工作者的检索要求,提高查询效率,帮助他们在最短的时间里获取更多更优的答案。

本文来源:https://www.bwwdw.com/article/gzd.html

Top