基于改进VSM的句子相似度研究

更新时间：2023-08-18 19:09:01 阅读量：资格考试认证文档下载

说明：文章内容仅供预览，部分内容可能不全。下载后的文档，内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的，是否完整无缺。

VSM改进推荐度：
相关推荐

第 1。第璺 9卷期.

计算机技术与发展( M PUTER X) TECHN0LOGY AND DEVEL P D ME NT

20 0 9年 8月

V0 . 9 No 8 11 . Au . 2 0 g 09

基于改进 V M的句子相似度研究 S苏小虎(安徽工业大学计算机学院，安徽马鞍山 2 30 ) 40 2摘要：空间模型是以特征项权重为核心的算法，征项权重对文本分类、向量特检索等的效果起着至关重要的作用。文中

提出了一个新的权重概念——领域权重，并利用它改进传统向量空间模型。改进后的模型综合考虑原有特征项权重和文

档中特征项自的领域权重。在特定领域 F Q的检索中作测试实验，果表明，身 A结改进的方法提高了检索的查准率、全查率和 F测试值。关键词：向量空间模型；领域权重；率权重频中图分类号： P 1 T 32文献标识码： A文章编号：63 2X(09 0— 13 0 17—69 20 )8 0 1— 4

Re e r h o e e eS m ia iy Ba e n m p o e M s a c fS ntnc i lr t s d o I r v d VSSU a - u Xio h

(c x f o ue, h i i ri f ehooy Ma asa 4 0 2 C i ) S t￣o mp tr An u Unv s yo cn l,’nhn2 30,hn xl C e t T g a

Ab ta tTh h r ceit emsweg ti h oeo M,tpa stev r mp ra tr l ntx lsict n,e trtiv la d S src: ec aa trsi tr ih st ec r fVS c i ly h ey i otn oei e tcasf ai tx ere a,n O i o

O . n w cnet a l r’o i i tsp t owad 8 st rv h￣ tfr h o M . uteⅪr,o gnl n A e。 cp me t ms dmanwe h u r r .0a i o etewe h mu f n ye g i f o mp o VS F rhrn e r ia ic a atr t tr we h l o ie . i h etb sd o p c o i AQ, x ei n eut h w h tte i mv h rcei i ems i ti as

cmbn d W t te ts ae n s ei d man F sc g s o h l a epr me trs l s o ta h mp e s dme h d r ie h rc so,r c l a d t e F e tv l e t o as d t e p e ii n e a l n h t s au .

K yw r s VS; o i—we h:rq e c—we h e 0 d: M d ma n i tfe u n e g￣t

O引言处于信息化的、知识爆炸的现代社会中，人们无论是在学习还是在其它方面都会时不时地遇到一些困惑，时，此都希望能得到及时的解决。今天，由于互联网的普及和快捷，以人们的“所解惑”最常用的渠道就是借助网络，而且搜索引擎成为首选。然而，搜索引擎虽然决大多数时候能够帮助人们在浩如烟海的互联网

中重点研究向量空间模型中特征项权重的内涵，出提了一种特征项权重的改进算法，结合特征项距离和并顺序信息，构成一种新的句子相似度算法。

l信息检索模型信息检索模型是信息检索任务及其实现方法的一种数学抽象 (或称数学模型)是信息检索研究的主要，内容之一。它一般从两个方面抽象地研究信息检索方法：一是确定在模型中如何表示构成检索系统的两个要素，即文档和检索条件 (也称检索表达式)二是确定；在模型中如何定义和计算文档和检索条件之间的关

中找到所需的相关信息，但是，搜索引擎的局限性也很明显，:以几个关键词的简单组合来表达检索需如仅求、相关性信息太多、检索效果差强人意、表达意思差“异”问题等等。除此以外，基于中文网页的搜索而对

言，由于中文语言的独特性以及技术上的缺陷，使得目前的中文搜索引擎存在准确性差、查全率低、更新不够及时等弊端。为了获得更好的检索效果，就要求更高

系。需要说明的是，在信息检索模型的研究中一般不考虑如数据结构、数据存储等描述的具体实现细节，而侧重于数学模型的构造。

效的信息检索技术，也就促使了信息检索技术的研这究。目前，搜索引擎主要是基于文本的信息检索，文本信息检索的关键技术是基于文本的信息检索模型。文收稿日期：0 8 3 9修回日期：0 8一O 20—0—1; 20 6一l 7

构建信息检索模型一

般有两种研究路线：基于统计的模型和基于语义的模型。基于统计的模型主要应用统计手段从被检索文档或高标注文档中查询与用户需求匹配程度高的文档。其主要模型有：布尔模型( ol nMoe)向量空间模型 ( etr pc Mo e B oe d 1、 a V c ae dl oS ,

基金项目：安徽省自然科学基金项目( 2 0 1 4 ) KJ0 73 5 2

作者简介：苏小虎(94,, 17一)男安徽无为人，硕士。究方向为信息研检索、自然语言处理。

V M) S以及一些概率模型( rbblt d e等； Poa i iMo 1而基 ic s )于语义的模型则通过对用户的需求进行一定程度的语

14 1

计算机技术与发展

第 1卷 9

法和语义分析，试图获得对用户输入的自然语言文本的“理解”再重新生成查询。其主要的模型有：,自然语言理解 ( a r a gae rcs, L )潜在语义索 N t a L n ug oe N P、 ul P s引模型 ( a n e ni Idx g L I和神经网络模 L t t mat nei, S ) e S c n型( t c l erl ew rs A N; Arfi ua N t ok, N或称并行分布处 i aN i 理模型， a ll ir u d r e i,【 )。 P r l s i t o s n P)等 aeD tb e P c s g P另外，从各信息检索模型依据的数学基础，还可将其分为以下三类：

)表示，简记为 D= D(,,, )那么表 W1 …。示索引项对文档的重要程度，就可用权重评价函数是： W’= t *i‘ k () 1

表示。

其计算方法主要运用 t~公式， f目前效果比较好的

t f表示项在文档中的文档内频数， t值越 f高，意味着索引项瓦对于文档越重要； f( vr i kI e e a n s

D cmet rqec) ou n euny表示项的反比文档频数，值越 F i d高意味着索引项对于文档的区别作用越大； = i dl ( n)其中 N:f, g o N/ 。 I即全部文档的总数量；量 D, z表示包含索引项的文档数量 (即索引项的文档频率)值越高，,意味着索引项在衡量文档之间相似性方面的作用越低。如果一个索引项仅出现在一个文档中， i= l (;则

o N)如果一个索引项出现 g在所有的文档中， i=l l o则 o:为防止出现 0 g的意

() 1基于集合理论的模型。此类模型将每个文档

表示成索引项(或称特征项 )的集合，再通过集合的相关运算来判定检索内容和文档的相似度。典型的模型有：布尔模型和基于模糊集的模型 ( uz e Moe) F zySt d1 等。 () 2基于代数理论的模型。此类模型将检索内容

和文档表示成由索引项构成的向量空间，通过向量的空间关系(如向量的距离等)来衡量二者的相似度。典

型的模型有向量空间模型和潜在语义索引模型。 () 3基于概率统计理论的模型，即概率模型。主也要有二元独立模型 ( i r dpnec d e、 Bn yI eednyMo 1双泊 a n )松模型( w o snMoe、 T oP io d1推理网络模型 (neec s ) If ne r

外，常用 i:l ( n+c。中 C d f o N/ )其 g为常数，常取一 c个比较小的值， c= 00,为影响因子，如 .1作防止分母出现等于 0的情况发生。

由于( ) 1中没有考虑文档的长度因素，因此越长的文档越有可能被检索到。为了避免这种情况的发生，对公式 ( )一化调整后得到： 1归一

Ne okMo e、度网络模型( ee N tokMoe t r d1信 w ) B lf e r d1 i w )和贝叶斯网络模型 (aei t okMo e等。 B ys nNe r d 1 a w )目前具有代表性的文本检索模型主要有向量空间模型 ( et ae dlV M)概率模型( rbbi V co S c e S、 r p Mo, Po ai— l st d1 iMoe和基于语义的检索模型等。其中， c )向量空间模型是最基本最有效的文本表示模型之一。向量空间

t f o ( n) *l N/^ g===========—=======一

,、,’

'/— W k

√∑t[ (+/ ) *1 c N n] o g 定义 4向量空间模型：给定一文档 D(’,; 1 Wl l,

w2 -;, )由于在文档中既可能重复出 .. ,

模型最初由 G rr a0【等人提出， e dSl n, a t】它将文档和用

户查询式转化为向量形式，据向量之间的相似程度根对所有返回结果进行排序

,在文本信息检索系统中并得到了较为广泛的应用。

现又可能有先后次序的关系，综合分析有一定的难度。为了简化分析，暂没有考虑在文档中的先后次序并要求无异。这样就可以把丁l丁， L看成一个， 2…,维的坐标系， w而，,, …即为相应的坐标值，

2向量空间模型及其分析2 1传统向量空间模型 .

因而 D(,,, ) w】 w2… 就可被看成是 n维空间的一个向量。可称 D( 1 ,,, ) … 的向量表示。定义 5相似度 (i l i )衡量两个文档 Dl S at: miry和 D2之间的相关程度( er f e v c)常用两者之 D ge o l a e, e R en

传统向量空间模型把文档和查询式表示成向量形式，从而将信息检索转化为向量空间的向量计算问题。向量空间模型的相关概念定义如下：

间的相似度 Sm m(, ) iVs D1D2来度量。当文档被表示成 V M时， S就可以借助与向量之间的某种距离来表示

定义 1文档 (ou n)泛指一般的文献或文 dcmet:献中的片断(段落、句子组或句子)一般指一篇文章，,记为 D。

文档间的相似度。常用向量之间的夹角余弦或 Jca acr d相似函数，中夹角余弦的计算公式为：其r

定义 2索引项 (e:指文档中所含有的基 t m)是 r本语言单位(词、字、词组或短语等)记为丁。,

Wl k* W 2 k

Sm m(, 2 兰兰====: i Vs D1D )=^ l= =l

() 3

定义 3索引项权重 (e e h)表示索引项 tr w i t: m g在文档中的重要程度，为 w。于含有住项的文档记对D( 1, )如果项的权重用 w 1 k≤ T,…,, (≤

√∑晰∑w *2 2传统向量空间模型分析 .

传统向量空间模型中的索引项权重

的直观含

)表示，那么文档就可用 D(,; 2 W2…;, T1W1T,;

义是一个索引项对于一个文档的重要程度，即一个索

第 8期

苏小虎：基于改进 VS的句子相似度研究 M

15 1

引项在多大程度上可以将该文档与其它文档区分开来。采用 t—i方法对索引项加权， f d f在一定程度上给那些经常出现在较少文档中，而不常出现在绝大部分文档中的索引项赋予更高的权

重。传统向量空间模型但为了简化分析计算，没有考虑项在文档中的先后次

之间的距离和项的先后次序关系。所以也可引入此两项辅助的句子相似度计算方法，一步修正向量空间进模型的计算结果。 () 1关键词(专业或非专业关键词 )离的相似指距度。

序以及项与项之间的距离，也没有考虑项本身的重要程度。因此检索时会造成返回的不相关内容数量过多，鉴于此缺陷，针对传统向量空间模型的权重本文提

关键词间距离反映了句子的凝聚程度。假设有句子 D1D2如果两句中相同关键词之间的距离越小，、, 则两者越相似。参见公式 ( ) 5。

出了一种改进的计算算法。

Sm i D1D2卜丽 DsD1 iDs, )= ( i ) (

() 5

3改进的向量空间模型及句子相似度3 1改进 V M的权重算法 . S

其中： i D】 Ds )表示问句中非重复关键词中最左 (及最右关键词之间的距离， i D2表示答案中与问 Ds ) (句相同的最左及最右关键词之间距离。如果同一关键词在句子中出现多次则以产生最小距离的关键词为准。

向量空间模型以特征项权重为核心算法，征项特权重对文本检索的效果起着至关重要的作用。公式在 ()中的 W/ 2 k映了项在文档中的重要程度，它只反但是依据项在文档中的相关频数计算而得，姑且称之为频率权重。了进一步体现不同项在文档中的重要程为度，系统在原有项的频率权重本的基础上再考虑各项本身的重要程度，姑且称之为项的领域权重，记为 W如在一文档中，。其专业关键词肯定比非专业关键词更重要(能体现句子的中心意思 )比一般的普通更，词更重要。于此思想对公式( )基 4作如下改进。训= a *伽照+口 * U 1 2 Z i () 4

() 2关键词(指专业或非专业关键词)顺序的相似度。

关键词顺序反映了它们之间的先后次序关系。假设有句子 D1D2如果两句中关键词顺序越接近，、,则两者越相似。参见公式( ) 6。S r(, )=卜 R v ) i d DlD2 mO e D1D: (, () 6

其中： x e(, )表示数量为 K y ( ) Ma R vO1D2 eWC D1的自然数序列的最大逆序数。e ( )表示以答案

中 Sq O1 关键词对应在问句中的位置构成的自然数序列，R vD1D )表示 Sq O1的逆序数。 e(, 2￣( )

其中： 1 2 1这里取 1口+=,=0 8。 .、 2=0 2 Wi .。

的值根据项本身的情况来定： ①如果项是专业关键词，则取= 1;②如果项是非专业关键词，则取 Zi U=0 7 .;③如果项是其它一般的普通词项，取 Wi=则0. 4。

() 3句子相似度。S D1D2= l Sm m(, )+ i m(, ) * iVs D1D2 SmDsO1D2+ * i r(, ) i i (, ) S mO d D1D2 () 7依据不同卢、、的值分别对不同区段的 l

这里硼的取值主要是为了区别专业关键词、非专业关键词、一般的普通词三者的重要程度。

SmV M、iDi Sm r值对 Sm值的影响做了初步 i S S m s iO d、 i的对比实验 (数据略 )这里的参数卢、、 3据实验， 1卢依结果初步调整为：1= 08=0 1 ., .,=0 1 .。

为了验证 W a、 2别取不同的值对同一 W/、 la分 k值的影响，按表 1中的数据做了叫i 0的交叉对比实和 t验。

4实验结果与分析表 1 W、 1。取值情况 a、 2评价信息检索系统性能的主要指标为查准率和查全率[I 5。在计算完用户查询句和待查文档的相似度后，还应对其结果进行过滤，过滤的效率应以查准率(rc i peio s n=l r ) i和查全率(ea=1 n) a r l c l/来衡量，综

合考虑查全率和查准率，以得到新的评估指标——可综合评估率 F【6, 】其计算公式如下： .3 2改进的句子相似度算法 .F=巡十 pr c son r c l e i i e al

() 8

文献[,] 34中在基于关键词相似度的基础上，利用关键词距离、顺序信息来修正句子相似度的计算结果。在向量空间模型中，为了计算的方便没有考虑项与项

在实验中，对 V针 B课程 F Q库，出 4 5条问 A抽 6答对，从收集的学生问句中抽取了相关的 3 7条问句 8

(见表 2。采用 7级不同的阈值分别对传统和改进 )

16 1

计算机技术与发展

第 l卷 9

V M进行测试， S最后得到不同

的阈值下传统模型与改进模型的查全率、查准率及综合评估率 F的结果 (见表3。 )

对特定领域的专业词典；带词性标注的普通分词词典。由专业词典标出专业关键词，由普通分词词典分出非专业关键词 (、形和限定性副词)一般的普通名动、和词。

通过实验结果可知，过改进索引项权重和相似通度的计算方法，使基于改进模型的查全率和查准率得到一定的改善。表 2从本系统收集的用户问句中抽取了3 7问句( 8条问句未加改动)编号1 2

另外，在文中提出的索引项权重基础上，也可以构

造包含同义、词义信息[或领域本体概念[的索引 ], j项权重函数，以进一步提高 V M的性能。 S参考文献：[] S t 1 l nG, n . n h S ei ai f e V lenA ao WogA O te pc ctno Tr a i u i f o m u tm t d i[]Ju a o￣ o acI e n J.or l f inxg n3 51— 3 2. 7

问什么溢出错误！

句

f Sc件怎么来的，什么用啊？ r c文 x,有

s o 17,94: t i,932 () tn

3●

怎么做才能让文本框字以彩色显示！?

[] Sl nG.1 MA T R teaSs m— E pr et i 2 ao 1 S R e i l yt t Ie rv e xe m nsn i

A tm t D c nn r e i[ . nl odCiS N: u ac om et o sn M]E e o I, J o i P c sg g w f f图像控件部分也要考吗？P e e l n, 9 1 r mieH e 1 7 . I

31 7

表 3用户问句与 F O库中问题 A相似度测试实验结果

[]王 3

宇，刚，山 .于网络的中文问答系统的研究战学蔡建基