一种高效防抄袭的由粗到细的框架

更新时间:2024-04-18 14:47:01 阅读量: 综合文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

A coarse-to-?ne framework to efficiently thwart plagiarism

一种高效防抄袭的由粗到细的框架

Haijun Zhang, Tommy W.S. Chow n

Department of Electronic Engineering, City University of Hong Kong, 83 Tat Chee Avenue, Kowloon, Hong Kong

Pattern Recognition 44 (2011) 471–487

摘要 本文呈现了一个使用多级匹配方法的语义框架用以防止抄袭(plagiarism detection PD)。多级结构,即使用“文档—段落—句子”的结构来描述一个文档。在文档和段落级,我们使用传统的降维技术将高维直方图映射到潜在的语义空间。使用EMD(Earth Mover’s Distance)来代替完全匹配方法来检索相关文档可以显著地缩小搜索范围。设计了两个抄袭检测算法,并将其用于有效的标出可疑的抄袭文档源。我们执行了大量的实验性验证包括文档检索、抄袭检测、有效参数和实验性系统响应的研究,结果证实了我们所提出的方法在执行抄袭检测上所具有的精确性和计算有效性。

Keywords: Document retrieval, Plagiarism detection, EMD, Multilevel matching 关键字: 文档检索 抄袭检测 EMD 多级匹配

1. 介绍

从餐馆预约到技术研究,因特网已经毋容置疑地成为了我们生活中不可缺少的一部分。网络在线的流行却向文本知识产权提出一个严峻的挑战,因为因特网和计算机技术能轻易地将知识信息传遍整个世界。人们可以轻松地搜索、复制、下载和重用在线资源。最令人感到罪恶昭彰的抄袭行为就是从其他的文章资源不加以任何修改地复制过来。但是这种类型的抄袭是很容易用抄袭检测系统(PD)鉴别出来的。稍不明显的例子是抄袭者将比人的文章嵌入到他们的文中,他们企图通过对已有的文章作词或句子的替换或从外源粘贴一些词语以躲开抄袭检测系统。剪切-粘贴型抄袭检测现在在教育系统里已经受到了持续的关注。高效率的抄袭检测系统现在面临的一个难题就是对源搜索的迅速查询响应,因为抄袭者可以抄袭因特网上的文档有数百万个,而每篇文档通常包含的词也有数千个。

现有的反抄袭技术包括指纹识别——专为合作抄袭而开发的技术,ranking技术——为文档检索而开发。 Hoad和Zobel[1]研究了这些技术并证明了ranking方法比指纹识别方法更优。Chow et al.[2] 通过使用ranking技术也得到了不错的结果。沿着这条线索,文本将呈现使用多级匹配的(multilevel matching MLM)由粗到细框架的抄袭检测技术,所提出的方法具有一些给力的特点包括通用性、健壮性和高效性。这些特点具体描述如下:

? 通用性是指文档的多级表示和它的编码特性。我们使用文档-段落-句子的结构来形成文

档的由粗到细的表示。在文档和段落级别,使用传统的降维工具——主成分分析(principal component analysis PCA)来获取潜在的语义主题,除了PCA,任何其它的潜在语义分析和降维技术都可以并入这个方案。 ? 由于使用签名匹配,所提出的系统是健壮的。通过牵涉特征每部分的长度和词条的直方

图来构造文档和段落级别的签名。句子的特征化是通过使用每个特征的索引数,这些特征对应于词汇表里对应的词。在签名编码中,我们不考虑特征在句子里的顺序,因

为抄袭致力于替换每个句子里的词或重组每个句子的结构来躲过PD系统。

? 文档的建模及应用显著地集中于计算,因为它们至少包含数千个词。我们提出的系统基

于深度匹配,使用由粗到细的策略来过滤不必要的搜索域。这种剪枝能力给我们带来

计算高效性。因此我们所提出的方法适用于大数据集和实际的在线应用。

本文的主要研究成果有三点。首先,我们提出了文档的多级表示和编码特征;第二,对于相关文档的检索,我们深入研究了MLM方法,即基于直方图的MLM(MLMH)和基于签名的MLM(MLMS);第三,实现了两个检测算法,通过设置合适的条件,在多级匹配之前就可以减掉期望不大的路径。

本文下面的章节安排如下:第二部分对文档建模及其应用作简要的综述,同时分别对PD、文档分类(Document Categorization)和文档识别(DR Document Recognition)的关系作出讨论;第三部分介绍多级文档的表示、文档分割、降维和特征编码,文档的分割使用HTML标签;我们在第四部分讨论基于直方图和签名的不同文档检索方法,而在第五部分,我们则实现了两种检测算法;接着,在第六部分描述了我们所执行的大量实验性验证;第七部分,基于观察的结果,列出从实际角度对系统框架提出建议;第八部分给出最终结论和下一步工作的提议,并结束本文。

2. 相关研究

这部分简要地综述了先前的工作,因为部分地包含了Tommy et al.[2]和我们最近的工作[3,4],也涉及到文档建模及其应用(即分类、检索和抄袭检测)。我们也讨论了PD和其他应用的关系。

2.1 文档建模

最早的文档建模方法是向量空间模型(vector space model VSM)[5],通常使用tf-idf方法来权值化特征。首先为特征描述构造一个基本词汇表,“tf”指特征的出现频次,而“idf”(inverse document frequency)指的是一个特征在多少篇文档中出现过。使用tf和idf来为每篇文档构造一个权值化的向量。两个文档之间的相似度可以使用余弦距离或任何其他的距离函数来度量。VSM将每篇文档特征向量的随意性长度减小到一个固定的值,但是描述一篇文档特征信息的频率也需要一定长度的向量,因为其中包含的词汇数量一般也是巨大的,这也明显地造成了计算上负担的增加,因此VSM在大文集上的应用不可行。此外,VSM对文档的统计属性不给力,因为它使用文档的低级特征,即词频。为了克服这些缺点,研究者已经提出数个降维方法,使用低维隐式表示方法来获取文档语义。隐式语义标定系数(LSI latent semantic indexing)[6],扩展的VSM,将文档和特征映射到隐式空间表示,它通过执行线性映射、单值分解(Singular Value Decomposition)将VSM模型的特征向量维度压低 。一个前进一步的概率模型是概率隐式语义标定系数(Probabilistic Latent Semantic Indexing)[7],为数据定义合适的一般模型,从混合分布里为每篇文档的词建模作为样本,并为混合部分形成因素表示。简单的介绍下其他的概率模型,如隐式Dirichlet分配(latent Dirichlet allocation - LDA)[8]、EFH(exponential family harmounium)[9]和泊松配合率(RAP – Rate Adapting Poisson)模型可以供参考。然而以上模型只基于“词袋”假设,因此一些有用的语义就可能会丢失掉,因为两篇含有相似特征频率的文档可能在行文上具有较大差别。在我们最近的工作中[3],为了在文档表示中包含更多语义,通过使用不同图表,我们提出了一个使用多特征的新的文档表示方法。应用不同的特征提取方法从每篇文档中提取特征频率(TF)和特征连接频率,然后通过共同地产生多特征,我们开发出一个Dual Wing Harmonium(DWH)模型来产生文档的隐式表示。

2.2 应用

在大量的文献资料上的文档应用主要包括文档识别(DR)、文档分类(DC)、文档抄袭检测(PD)。

DR是指给定一个查询,找出相似的文档,这个查询的范围可以从全文描述到文档的一些关键词。大部分广泛应用的检索技术都是基于关键词的的搜索方法,如Google,没有经过训练的用户只需要提供一些关键词给搜索引擎,就会得到相关文档的一个列表。另外一种DR使用文档查询,将整个文档作为查询输入以提高检索精度,但是它在计算量上比基于关键字的查询大得多。VSM[5],LSI[6],PLSI[7],LDA[8],EFH[9],RAP[10]和DWH[4]可以直接应用在后一种DR上,以为它们派生于基本特征单元作为特征向量的方法。另一方面,许多现有的检索系统都是基于传统的布尔逻辑模型[11],文档和用户的查询都假设表示成精确的索引特征。为了克服对人类知识的不准确和不确定表达的限制,许多模糊信息检索系统被提了出来[12] 。Bear et al.[13]提出使用信息提取(IE)来提高检索系统的性能。根据Gaizauskas和Wilks[14],“Document Retrieval”即从数据集中检索相关的文档,另一方面,IE从被检索的文档中检索相关的信息。现在的IE通过一些列的信息理解会议(MUC)发展着。读者涉及到对IE的简单综述[14]。自组织映射(SOM),一种多功能的无监督神经网络,由于它的的计算有效性,已经被研究用来执行快速DR应用,它是通过自动将文档映射公式化来提高检索过程[16]。一个灵活的多层SOM[2,17]被开发出来处理一般的树型结构数据,例如,文档数据可以根据其文档特性(文档—页—段落)表示成多层次的。除了SOM,研究者还提出对大型文档数据集的聚类可以用来提高系统的检索速度[18]。考虑查询的信息在文档中的模式,Park等人[19]提出基于光谱的文档识别方法[19],建议文档中具有相似位置模式的查询特征相关性的期望更大。然而,这些方法都只是对关键字查询的情况下可用。

除了DR,DC在组织大量文档数据上也变的重要起来。根据Yang和Pedersen[20],DC是一类对自由文本文档指定预定义类别的一类问题。DC问题的一个主要瓶颈是高维特征空间。研究了不同的特征选择方法[20],并对典型的文档聚类技术作简要的综述,涉及到的技术有密集的分级聚类、K-means等[21]。另一方面,Sebastiani[22]在一般的机器学习范式上的自动文本分类的主要方法上作了详细的研究。Fuketa等人介绍了一个域理解方法,它为DC使用域联合词。其他人使用二元语法[24]或特征联合规则[25]来提高DC的精确度。神经网络[26]和支持向量机[27]也被研究于DC的应用。其他技术,像粗糙集[28]和统计方法[29]已经传闻在在研究DC了。人工智能方法[30]也被研究用于DC和可视化方法。最近,分级的DC技术在知识和内容管理上也变的重要起来,它使得不同粒度级别的数据视图具有交互性。Fung等人[31]基于联合规则挖掘介绍了分级的文档聚类体系,提议使用频率较高词集的一些常见词为组群产生一个分级主题树,这样,根据主题特性的加强,聚类的文档即可被浏览。Bang[33]等人接着提出了一种改进版本的k-NN分类器,借助于基于概念的thesauri,需要使结构化文档类别变成等级。

PD的早期工作集中于学生计算机程序抄袭的检测[33]。相比DR和DC,字面上提到的PD相关的工作比较少见,尽管已经有了很多的商业工具,如Turnitin1,WordCHECK2,EVE23,WCopyFind。COPS[34]和SCAM[35]是两个著名的PD方法,它们的基础是将每篇文档分割成更小的部分,并将其寄存到一个哈希表当中。这样,数据集里所有的文档都被哈希成标准组件形式,查询文档也类似地被分割成哈希表里顺序对应的部分。Monostori等人介绍了一个使用后缀树的串匹配算法以提高PD的处理速度,但是这只能在小数据集上应用这种词对词的匹配,因为后缀树的规模不易扩大。为了在扩大规模的数据集上的应用,Heintze[37]提出基于指纹的系统。文档指纹的形成是在字符的级别上形成的,而不是在词的级别上。这 -----------------------

4

1 http://www.turnitin.com

2 http://www.wordchecksystems.com 3 http://www.canexus.com/eve

4 http://plagiarism.phys.virginia.edu/Wsoftware.html

种方法的检测速度大大地提升了,但却牺牲了一定的语义信息。Finkel等人[38]报告了一个网-可接入(web-accessible)的文本注册系统,它从每个注册的文档中提取一个小签名,整个匹配时间随着数据集的大小线性地增加,因此,当要处理一个长文档时,整个检测时间将相当长。最近,Meyer zu Ei?en等人[39]提出一个新方法,它从一个单文档里就写作风格的改变产生出可疑的文档,这些文章可以用于初步的在线搜索或人工检查。Barro′n-Ceden?o 和Rosso[40]接着执行了大量的实验,彻底地比较了引文和可疑的n元词级。他们发现较低的n值(除了unigram)在检测重述型抄袭上表现的更好。根据Si等人[41],大部分现有的PD方法都是使用基于句子的彻底匹配来比较可疑的抄袭文档和所有注册的文档。显然,这种方法是不切实际应用的,因为随着时间的增长,文档的数量也是在不断增加,且一些文档的尺寸也很大,这种方法的安全级别也是一个主要的关注点,因为抄袭的文档可以通过在每个句子中加入一些较少的修改即可躲过检测的识别。因此,一个基于章节的树形结构的文档表示被介绍执行抄袭检测[41]。它使用深度优先搜索匹配每一个节点以减少不必要的比较。但是这种方法依赖于原生的特征单元,即用关键字来表示每个章节,使得处理大数据集依然不给力。最近,Tommy等人提出使用多层SOM(MLSOM)来反抄袭,并发现MLSOM在处理大数据集上的计算有效性。但是MLSOM方法需要合适的预处理训练时间来消除SOM的偏向映射,此外,它仅使用段落来作为最低级别的特征单元来执行抄袭检测。

2.3相互关系

PD,作为文档建模的一个重要应用,和DR和DC是不同的,但却和它们非常相关。

对一个文档的简单剪-贴操作或少量的替换称为抄袭。两个文档在PD里面的相似度要比DR和DC更明显,因此语义相似应用在DR和DC里更合适。DR会向用户返回一个检索列表,而PD倾向于得到一个候选列表和一个重叠率,从列表上用户可以进一步确定是否需有必要进一步手动检查返回的文档。PD的另一个选择就是直接通知用户所查询的文档是否是抄袭的。后者可以被认为是一种二分类问题。但是源种类只有很少的一些,也许只有一个文档,因为抄袭者倾向于从一个或两个文档里各抄一部分。因此,PD和DC是有区别的,因为DC中的数据集通常包括许多类,每一类都包含大量的文档。所以PD可以被看作相比于DR和DC的进一步匹配。DC可以通过监督的或无监督的学习来实现,然而,PD却没有对类标签的先验知识,因此,从一定程度上来讲,只适合使用无监督的学习。对于大数据集,用户可以首先检索许多相关的文档,或自动地指定一个类别的查询,这样建立一个局部的小数据集,然后再从这个缩小了的搜索空间执行抄袭检测。这或多或少地都激发了构建由粗到细框架的想法来执行防止抄袭。我们总结了PD、DR和DC的关系如下: ? ? ? ? ?

在PD里面,两个文档之间相似度的条件比DR和DC更严格; 对PD性能的改进基于等级列表或相比较于DR的二值判断; 相对于DC,PD可以被认为是一种二值分类问题; 相对于DC,PD没有任何的先验知识; PD可以被认为是DR和DC的更进一步。

3. 文档表示

这部分涉及文档预处理和特征提取的全部步骤。它包括将一篇HTML文档分割成段落并进一步将每个段落分割成句子(见3.1节)的详细步骤,建立两个不同大小的词汇表(见3.2节),构造多级表示(见3.3节)。

3.1 文档分割

我们提出一个分等级的多级文档表示,它只包含文本内容,为了提取出这种多级结构,一个文档被分割为各个段落,并进一步分割成句子。本文我们只考虑HTML文件并用Java平台实现了这种分割。在HTML格式的文本文件中,通过使用HTML标签可以很容易地识别出段落,并通过标记域进一步分割成句子。在分割之前,我们首先过滤掉出现文本文件中的HTML格式标签,被过滤掉的文本不作为词的统计范围和文本特征。

完整的文本分割过程可以总结如下:

1. 使用”

”, ”
”, ””, ””,等HTML标签将文档划分成块;

2. 将块序列合并成新的段落,直到段落的词数超过前提条件(本文设置每段最多50个词)。如果一个段落的词数小于最小前提值(设置为30),则和前一个段落合并;

3. 使用”\\.”标签将每个生成德段落分割成句子。

要注意的是,对于HTML文档,每个段落词数的最小/最大值是没有规则限制的,但是使用一个前提条件仍使得我们能够灵活地控制每篇文档段落数,并使一些只包含为数不多几个词的段落(如标题)附加到其他段落中。通过这种方法,我们建立了一个从全局数据视图到局部数据视图描述语义信息的多级结构(或树结构),于是这样文档内容就从文档到段落,再从段落到句子分级结构化了。这是一种简单的产生分级结构的方法,还可以通过更好的分割方法来加以改进,如“文档-章节-页-段落-句子”,但是需要更复杂的算法来简化这种分割。

3.2 词汇表构造

主要的文本内容首先从HTML标签中分离出来,然后从数据集中的每篇文档中将词提取出来,并提取每个词的词干。使用作为特征的词干来代替原来的词,于是,‘program’、‘programs’、‘programming’都被认为是同一个词。我们去除掉停止词(像a、the、are等公共词集),然后存储词干化后的词和其特征频率(tf-一个词在所有文档中出现的频率)和文档频率(df-一个词在不同文档中的次数,即哪些文档包含这个词)。为了给每篇文档形成一个柱状向量,我们需要构造一个每个柱状向量都要涉及的词汇表。基于以上存储的特征频率ft和文档频率fd信息,我们使用一个简单的特征权值化度量方法,它和tf-idf类似,计算每个词的权值。

其中,N是数据集中的文档数,注:这种特征权值化度量方法可以使用其他其他特征选择规则[20]。根据权值的大小,将特征词降序排列。在这里,我构造两个词汇表V1和V2,V1用来形成文档和段落的的直方图向量,而V2用来形成文档签名(见3.3节)。最先的N1和N2个词被选择出来构造词汇表V1和V2。词汇表V1主要用于DR(见第4节),词汇表V2用于进一步对句子的分类(见第5节)。词汇表大小N2比N1大很多,根据我们的经验[3,4],使用数据集里的所有词来构造词汇表V1来提高DR的精确度并不是必须的,因为对

于一些主题来说有些词可能是噪声特征。然而文档建模方法[5-10]几乎都使用全部的词来形成基本的直方图特征向量。为DR做高效的特征选择仍然是个难题,这个我们留给其他研究者。就词汇表大小的选择(见6.4.3节和6.4.4节),我们执行了详细的实验来评价其对结果的影响。

3.3 多级表示

词汇表构造以后,我们使用3.1节介绍的步骤来分割数据集中的每一篇文档,并产生“文档-段落-句子”的多级结构的表示。顶级结构包含整个文档的直方图,而对于句子使用2级结构;直方图中的每个元素指示词汇表中对应在文档或段落中出现的词的次数;第三级不同于前两级,它在句子级别,使用词汇表V2中词索引数代替直方图来指示一个词是否出现在一个句子中,这种体系结构有两个优点:节省了存储空间(提高了计算效率)并提高了检测精度(精确效率),因为它更多的检测了文档的局部。

因为文档和段落级别主要用于DR(见第4节),我们应用PCA(一种应用广泛的降维工具)来对整个文档和分割的段落的词直方图向量。这里,用PCA将高维数据映射到低维隐式空间,而不丢失太多的统计信息。我们首先正规化第i篇文档的直方图向量

其中nt是词汇表中第t个词的频率,ft是第t个词的文档频率。然后我们使用正规化的直方图来构造PCA映射矩阵B。为了节省计算开销,我们只在文档级应用PCA。我们已经使用了MATLAB工具[42]计算出了映射矩阵。第i篇文档的压缩直方图向量Fid = [ftD] (u=1,2,??NF)被计算出:

其中B是N1×NF维映射矩阵,NF是被映射的特征的维数,因此,在Fid中映射的特征根据他们的统计量重要性有序排列了。同样,可以类似地使用映射矩阵B来计算第i篇文档的第j个段落的压缩直方图向量Fijp = [fvp] (v=1,2,??NF)。接下来保存这个映射,随后用它对一个新的查询文档特征化。

图Fig.1显示出对文档的多级表示分等级地描述了文档的内容。由于这种结构,我们就可以对文档由粗到细地检查。文档和段落级节点包括描述词频分布的压缩特征。注意到,不同级别包含相同的特征频率,但是它们从文档的不同部分提取出来的。就DR的应用(见第四部分)来讲,两个文档在根部有相似的词直方图,却在语义上完全的不同,因为相同词集的不同的空间分别会导致不同的意思,这个可以从多级结构数据的精细部分反映出来。

D

4. 文档检索

在这一部分,我们展示了和目前大部分已有模型不同的DR方法,因为我们所提出的方法充分地利用了文档的多级表示,在检索过程中加入了文档的局部信息,这也为随后要做的抄袭检测铺好了道路。当下的文档建模方法(如VSM[5]、LSI[6]、PLSI[7]、LDA[8]、EFH[9]和RAP[10])只考虑文档的全局信息(特征频率)。两篇含有相似特征频率的文档却有可能因为词的空间分布的不同而在内容上的大相庭径,例如,school、computer和science,当它们分布在文章的不同部分和在一起的情况下(school of computer science)是大不一样的。因此,仅使用“词包(bag of words)”模型里的特征频率信息来解释内容相似性不是一个最有效的方法,还需要包括各词间相互联系和词在文档中的空间分别[2-4]。根据我们的由粗到细的框架,对于一个给定的查询,包含局部信息来首先检索大量相关文档,这在直观上是不可少的,使得我们可以从一个更加密集的可疑抄袭源上继续进行更深层次的匹配(即句子匹配)。我们首先定义一个不相似度度量(见4.1节),然后开发两套检索方案(见4.2节和4.3节)。对于一个给定的查询,我们使用检索方法对候选文档按升序排列。然后我们建立一个集合Φ,它由首先预定义的Nret个检索列表中的文档组成,为接下来的抄袭检测做准备。

4.1 不相似度度量

在文档应用中,余弦距离(cosine distance)经常被用来度量其不相似度。在本文中,我们在应用中定义了如下不相似度(不相似距离)度量(指数的余弦距离):

其中?表示点积,F

Query

表示整个查询文档或查询段落的压缩的PCA特征。同样,F

Candidate

表示数据集中候选文档的特征。上述公式表明了,当距离很大时,它接近1,当距离很

小时,它非常接近0,其效果是加强了非常相似的段落间的距离融合处理(见4.2和4.3节)。

4.2 基于直方图的检索(MLMH)

给定两篇文档的多级结构表示(见图Fig.1),全局距离HGlobal可以直接通过匹配文档级别的节点得到,同时局部距离HLocal可以通过匹配段落级别的节点来得出。然而,文档的第二级包含不同数目的段落,根据我们定义的不相似度(见4.1节),我们简单地使用每个段落的压缩直方图向量作为特征单元来比较每两个段落,然后正规化所有的距离:

i个段落和候选文档的第j个段落之间的距离,m表示查

其中

Para

dij表示查询文档中第

询文档的段落数,n表示候选文档数。为了共同地包含全局和局部的信息,可以直接地定义一个混合距离:

λ∈[0,1]用来调整全局或局部信息的重要程度。这样系统根据用户的期望通过提供灵活地改变λ值来协调这种混合度量。在这项工作中,我们也研究λ值的影响(见6.4.1

节)。

4.3 基于签名的检索(MLMS)

基于直方图的检索只涉及所选择的词条作为特征,然后使用PCA将这些特征压缩到隐式的语义空间。它忽视了在文档中全体词汇中所选的一部分词汇,考虑到这一点,我们提出为整个文档或每个段落的直方图增加一个权值参数来产生文档的签名表示,在文档级别只需简单地进行签名匹配。但是对于段落级,如果只是简单地使用给定的权值在段落间做彻底的匹配,在段落级别上对文档进行比较是需要大量的计算。此外,找最优的匹配和适当地综合不同文档之间的距离是另外两个难以解决的问题。在研究中,我们将这个问题建模为地面移动距离(EMD)[4,3],通过解决线性规划问题花最少的签名匹配开销来找最优距离。

4.3.1 签名生成

每个文档构成两个签名:一个用作文档级别;另一个用作段落级别。一个K大小的签名定义为:

,Fk作为文档或段落的压缩的PCA特征,wk表征这些

特征权值的信息容量。在文档级别的签名大小为1,因为只包括只有一个节点,此外段落级别的签名大小就是文档的段落数。在本文中,权值wk由如下公式得出:

Tk表示文档或段落中词的总数(即文档或段落的长度),Tk表示在文档或段落中选择

t

s

的词的数目。显然,如果所有的词都选了出来,那么权值wk就等于文档或段落中词数目的平方根。因而,权值不仅搭载着所选特征的信息量,还表征了文档或段落的长度,这是VSM和其他方法所不具备的。

4.3.2 地面移动距离EMD(Earth Move Distance)

EMD最先是由Rubner等人提出[43],它是用来评价包含直方图分布的集群表示签名之间的不相似度。EMD已经广泛地应用在图像分析领域[43-45],因为它支持不同分布的匹配,尤其是部分匹配。整个运输问题集可以有效地利用一个相当标准的优化技术来解决。EMD问题就是要解决m个供应者将产品运输给n个消费者的最小工作量的问题。计算EMD可以形式化地转化为计算下面的线性规划问题。设表示产品的数量;

为供应集,其中权值wi

p

为消费者集合,其中权值wjq,表示产品的需求;

定义地面距离矩阵(ground distance matrix)D=[dij]m×n,目的是找出一个流矩阵F=[fij]m×n,其中的元素标志着从一个供应者到一个消费者运输的产品数量,为了最小化总的运输代价,有如下公式:

并服从如下约束:

上述公式是一个线性规划问题,只要解决了,流矩阵就得到了,EMD由下面公式给出:

4.3.3 签名之间的EMD距离

在产生了签名之后(见4.3.1节),用EMD来评价文档间的不相似度就简单了,因为EMD支持多特征集。另一方面,文档比较和运输问题也有一些相似的地方。一个查询文档可以视为一个供应者,同时数据集里的候选文档可以视为潜在的消费者。这样,度量文档之间的不相似度就可以认作为最小化一个实际功能(例如Eq(9))。

显然,在文档级别上用EMD表示全局距离是运输问题的一个实例,它只有一个供应者和一个消费者,即m=1,n=1。两个文档之间的全局距离由如下公式给出:

其中

是一个地面距离函数,即前面的公式(4)和公式(5)在文

档级别上定义的函数。另一方面,EMD计算段落级别的局部距离由如下公式给出:

其中,

是关于查询文档的第i个段落和候选文档的第j个段落的距

离函数。于是,我们使用混合距离来联合全局和局部不相似度,形式化的混合距离定义如下:

当然,在多级匹配(MLM)上使用直方图(MLMH)或签名(MLMS),计算效率是主要因素,因为用户总是希望系统的响应速度要快。基于MLMH比较两篇文档的计算复杂度为O(mn),如果两篇文档具有相同的段落数(即m=n),它计算复杂度就是O(m3log(m))[43],对于两个文档具有不同大小签名的情况没有明确的表示。 在实验的6.5节中,我们经验性地研究了MLMS在DR中的性能。

5. 抄袭检测

在检索了Nret个视为可疑抄袭源的文档之后,现在我们就要来开发PD算法了。通过进一步匹配句子和使用距离融化技术,很容易对Nret个文档按升序排序,最终将结果返回给用户。这叫基于分等级的技术(见5.1节)。另一种实现PD的方法是设置一个阈值在出现的源文档中实现二值判断,这是一个自动的抄袭检测(见5.2节)。

5.1 基于分等级的抄袭检测

显然,基于分等级的PD性能非常依赖于文档源,较高的等级是可取的,因为它暗含着查询文档和源文档之间有较小的距离(或不相似度)。执行基于分等级PD的基本思想是在段落级别候选者集合Φ里遍历每个节点,并进一步执行句子级别的匹配。因为我们已经计算并保存了查询文档和候选文档之间的地面距离矩阵dij,一旦矩阵中的某个元素值(距离)小于用户定义的前提σp,其子句子就被添加到节点表中并进行进一步比较,相反,如果距离大于前提,将不再对字句进行搜索。使用地面距离矩阵中元素的最大值和最小值为来计算前提σp :

Para

其中,ε(ε∈[0,1])是缩放参数,增大ε值将导致遍历更多的段落,并消耗更多的计算时间。根据我们的经验研究(见6.3节),使用较小的ε值在检测单个抄袭段落时更合适,同时大的ε值适合检测抄袭多个段落的文章。

因为在句子级别我们使用大词汇表V2(见3.2节和3.3节)中词(指示对应词条的出现)

Sen

的索引数来作为每个句子节点的签名S。在我们的应用中,将不考虑元素数量小于3的签名。然后定义两个句子k和l的重叠率,句子k在查询文档中,l在候选文档中。

设置另外一个前提τ(τ∈[0.5,1])来控制哪个句子将被认为是抄袭的部分,并进行融合距离处理。查询文档Dq和候选文档Dc(Dc∈Φ)之间的总体抄袭距离定义如下:

其中,Nq和Nc分别表示查询文档和候选文档的段落数,Nq,iSen和Nc,jSen分别表示第i个段落Pi(Pi∈Dq)和第j个段落Pj(Pj∈Dc)的句子数,并预定义一个很大的值κ表示距离函数找不到匹配。Algorithm 1.给出完整的基于等级的PD算法。

q

q

c

c

5.2 自动检测抄袭

自动的PD指设定一个阈值θ在源文档上做二值判断。如果所查询的文档的确是抄袭的,则它与源文档之间的相似度一般要比它和其他文章之间的相似度大。因此用户可以设置一个合适的阈值将源文档标出,并自动地找到源文档。除了基于等级的PD需要返回源文档列表外,自动的PD和基于等级的PD在步骤上基本一样。此外,我们使用下面的公式(27)来代替公式(26),因为我们使用相似度作为度量而非不相似度。

如果相似度比阈值大,则此文档就被认为是抄袭源,通过这种方法,用户将可以节省进一步检查等级列表。

实际上,就计算复杂度而言,提供一个全面的分析表达式不合适的,因为它依赖于实际的文档数据和我们使用的参数,例如,文档的尺寸越大,系统花费在比较查询文档和候选文档上的时间就越多;另一方面,缩放参数ε也影响查询的响应时间,增大ε,例如ε=1,显然会导致更多的段落比较计算。增大距离前提,将导致给距离融合带来产生更多的噪声,对检测性能下降。根据我们的实验,通常ε取小于0.5效果会足够的好。对于计算开销的花费,我们也进行了定性的研究(见6.5节)。

6. 实验

在这一部分,我们执行了详细的实验来作为我们所提出的PD方法的有效验证。这部分包括数据集描述(详见6.1节)、相关DR的性能(详见6.2节)、PD的性能(详见6.3节),参数影响的研究(详见6.4节)和计算时间的定性研究(详见6.5节)。

6.1 数据集和实验环境搭建

我们执行了大规模的实验来显示我们所提出的PD方法的性能。我们已经收集了一个文档数据集“Html_CityU1”,它包含26个种类[2-4]。每个类别包括400篇文档,总共加一起有10400篇文档。为了提供一个更真实的测试平台,我们建立的数据集中所包含的文档大小从几百个词到两万个词不等。对于每个类别的400篇文档,都是使用一组关键字从Google中检索得到的,一些关键字在不同的类别中有所重复,但是不同类别的关键字是不一样的,实验的执行是由两部分组成的,第一部分是在相关文档的DR上评价检索的性能,第二部分是执行PD。数据集首先分成一个候选集和一个测试集,用来作为查询使用。从26个类别中随机地选择出1040个测试文档,即26×40。余下的9360个文档用来作为候选集。在PCA降维后,使用测试集来证实相关DR的性能。为了构造抄袭文档集,我们使用了4种不同的抄袭模式编译了4个测试集,每个都包括78个文档,即3×26,其中3篇文档内容来自每个种类。第一个抄袭集中只有一小部分是从候选文档源中原封不动地拷贝的;第二个抄袭集基于第一个,它改变了抄袭部分的句子,这些微小的改变包括时态的改变、主动语句和被动语句的改变、少量单词等;第三个抄袭集则是在抄袭的基础上删除部分句子,这在抄袭中也是经常发生的;第四个抄袭集通过将抄袭部分分隔开,并重新组合到抄袭文本的不同部分,这种特征就是所谓的多样抄袭模式。其他的研究者可以从http://www.ee.cityu.edu.hk/~twschow/DataSetPD.rar下载整个数据。

6.2 相关文档检索

在测试数据集的局部信息的辅助下,我们首先评价了相关DR的性能。为了量化检索结果,我们使用了每个查询文档饿平均准确率(Precision)和查全率(Recall)值,定义如下:

在本小节,我们经验性地设置参数值, N1=500,NF=100,对于混合MLMS(MLMS-Hybrid),λ=0.35,而对于MLMH(不包括全局信息),λ=0 。上述参数的配置,在实验中具有较好的性能,我们还研究了这些参数对结果的影响(详见6.4节)。基于以上度量,我们比较了MLMS、MLMH和VSM、LSI,还有我们先前的一些工作(即SOM-tf+tcf)[3]。选择传统的VSM和LSI方法来作对比有助于研究文档局部信息对检索性能的提升。关于VSM和LSI的详细内容见应用文献[5,6]。我们使用数据的原始特征,并不使用任何缩减技术来研究了VSM,对于LSI,只使用tf特征在100维隐式语义的代表上执行。注:如果我们使用相同的特征权值化方案,LSI使用tf-idf特征和MLM-Global是一样的。

不同方法的检索结果全部集中于图Fig.2中,对应的数字对比结果列于表Table1中。 图Fig.2显示了检索的文档从1到360变化时,对于每个查询,数据集里最相似的候选文档检索结果精度。可以看到,MLM方法和LSI模型在精度结果上较优于VSM。一般来说,MLMH只考虑段落匹配的局部信息,当检索的文档数小于180时,比其他方法性能都要好。我们先前的工作-SOM也带来了满意的性能,因为它在文档相似度里直接包含了词关联的效果,同时为了提取明显的特征关联,需要扫描整个数据集。当检索的文档较少时,带有局部信息的方法(例如MLMH,MLMS-Local和MLMS-Hybrid)比不带局部信息方法表现较好的性能。同时我们也注意到当检索的文档数小于200时,MLM-Local比MLM-Global性能好。另一方面,由于集成了全局信息,当检索的文档数大于50时,MLM-Hybrid表现的性能比MLM-Local好。对比表Table1中的数据,我们观察到当10个候选文档被检索时,MLM方法在检索精度上比VSM提高了10个百分点,当检索文档增加到120时,它们仍然提高了4个百分点。同时,混合距离的MLMS比只有全局信息的MLMS提高了2个百分点。类似的查全率(Recall)结果也都列在表Table1中。总体来说,在关联中增加了段落信息比使用直方图或签名要好,这样确保了在接下来的PD中,源文档不会被误滤掉,因而减小了检测失败率。

6.3 抄袭检测

本节研究了我们所提出的方法在在PD上的性能。我们使用和上一节相同的设置。(见6.2节),另外三个参数设置如下:N2=20000,τ=0.5,Nret=500。我们首先对输入的抄袭文档作为查询使用不同的检索方法(即MLMH,MLMS-Global,MLMS-Local和MLMS-Hybrid)检索500个文档(即Nret=500)。然后我们观察源文档在检索结果中的等级,较高的等级比较容易检测,然后我们使用基于分级的PD算法(即进一步的句子处理)对候选文档重新分级。

表Table2显示的是78个第一类抄袭文档作为查询得到的源文档检索结果的平均等级统5

计数据。表Table1也包括了检测失败率,表示了检索的文档所占的比例,源文档不包括在内。另一个指标是混合等级6通过平均等级和检测失败率计算出。这里缩放参数ε=0.1,它的选择基于图Fig.3 。很明显,在所有的评价标准中,使用PD算法给分级带来了显著的性能提升。MLMS-Local显示出比MLMS-Hybrid更好的性能。很明显,包含全局信息给距离联合函数带来了噪声。因为抄袭者为了逃避PD系统,倾向于从源文档中拷贝或修改少量段落。MLMS-Local也比MLMH表现的性能好,这要归于权值{wk}带来了所选特征和段落长度信息量。MLMH只比MLMS-Global所表现的性能稍好一点。此外,MLMS-Global在检测失败率上表现的效果最差,表明很多源文档没有出现在检索的列表中。对于第一类抄袭集,我们也对比了PD算法和多层自组织映射方法(MLSOM)[2]。不出意外,我们的方法仍然带来了较优的结果,因为MLSOM只考虑到段落级别。在执行PD时,我们研究了从最终检索结果中首批出现的Nret个源文档,对第一类抄袭集,图Fig.4(a)绘制出了在等级列表中源文档存在的数量和检索的文档数的关系,很显然,PD算法领先于其它检索方法。当只有一篇文档被检索到时,它获得了大约55%的源文档。MLMS-Local显著地超过了MLMS-Global。此外,当检索的文档数量大于150,MLMH显示出了比MLMS-Global遥遥 ──────── 5

In Tables 2 and 4, AR denotes Average Rank, SD denotes Standard Deviation,MaxR denotes Maximum Rank, MinR denotes Minimum Rank, FDR denotes Failed Detection Ratio, and CR denotes Composite Rank.

6

Composite Rank = Average Rank/(1-Failed Detection Ratio).

领先的性能。为了研究缩放参数ε对PD检测结果的影响,当ε从0.0到1.0以0.1的步长增加时,我们总结了Average Rank的值。它表明有一个最优的值,而不需要试探了。ε=0.1显示出对于第一类抄袭集它是最优的选择。然后,我们考虑自动的PD而不检查等级列表(见5.2节)里可能的源文档。我们设置了不同的阈值θ用以执行二值判断。图Fig.5(a)显示了不同的阈值θ下自动PD结果。它包括了Source Detection7和False Detection,False Detection表示非抄袭源被检测为抄袭源,很明显,较高的阈值带来了不可预料的错误检测。随着阈值θ的增加,Source Detection开始下降,同时False Detection刚开始有明显的下降趋势,然后又开始上升。自动PD的一个最优选择就是找到一个θ,使得Source Detection越高越好,同时保持较低的False Detection。将θ值保持在0.1附近可以带来平衡的性能。在第二类抄袭集上使用基于分等级的PD的结果总结在图Fig.4(b)和表Table3中,结果和第一类很相似,因为第二类集合是从第一类中改变部分句子的来的,阈值θ除了0.05附近,不同的阈值对实验的效果也很类似(见图Fig.5(b))。和前两类抄袭集相比,在第三类上PD变得就有些困难了,因为拷贝的文本中故意地删除了一些句子。表Table4和图Fig.4(c)也证实了检测的困难。通过检索方法或PD算法,平均等级要高一点。 从图Fig.3中可以看出,缩放参数ε在增加时它的最优值在0.4左右,并存在一个局部最优值0.2。此外,在自动PD重,从图Fig.5(c)可以看出,最优的缩放参数ε下降到0.01左右。 随着阈值θ的增加,Source Detection急剧下降,PD的最大困难是检测多重抄袭的文本,它需要将源文档分割成不同的拷贝,第四类抄袭集展示了这种情况,表Table5和图Fig.4(d)显示了我们所提出的方法带来较好的结果。从图Fig.3中可以看出,缩放参数ε在取0.9是达到最优,同时在0.3和0.5之间有较多的局部最优值。对于不同阈值θ的自动PD算法得到的实验结果见图Fig.5(d)中的曲线。阈值θ的平衡点低于0.01。当阈值θ增加到0.2时,PD系统对源的检测会失败。

总体来说,MLMS-Local一直领先于其他检索方法。我们的PD算法在分级统计上性能有显著的提升,于是,用户可以轻易的鉴别出抄袭源。对于不同的抄袭模式,单一的抄袭模式(如第一类和第二类抄袭集)检测只需要较小的缩放参数ε,带来了很大的计算时效性;对多抄袭模式的检测需要增大缩放参数ε,让抄袭的文本不能躲过PD系统,但也增加了计算时间的开销,因此在经验性地设置缩放参数上也要依赖于抄袭模式。另一方面,阈值θ的最优值也依赖于不同的抄袭模式。根据我们的观察,检测多重抄袭模式通常需要较小的阈值,而对于单一的抄袭模式则需要较大的阈值。

────────

7

Source Detection=1 - Failed Detection Ratio.

6.4 参数研究

在这一节,我们经验性地研究了PD系统中涉及的参数及其对结果的影响。包括对λ(见6.4.1节),压缩的特征NF(见6.4.2节),词汇表V1和V2的大小(见6.4.3节和6.4.4节),重叠前提τ(见6.4.5节)。

6.4.1 权值λ

为了平衡全局信息与局部信息的重要性对相关DR结果的影响,我们使用了一个权值参

数λ设计一个混合的MLM方法(即MLMH和MLMS-Hybrid)。我们使用一个度量,称为“precision-recall影响area曲线”(AUC),一个权值λ的函数,简单地定义如下:

其中nmax表示检索文档的最大数,Pλ(iA)和Rλ(iA)分别表示平衡参数为λ时检索iA个文档的precision值和recall值。在混合的MLM中,对于不同的权值,较高的AUC值促使相关DR表现出更好的性能。图Fig.6显示出当权值以0.05的步长从0到1变化时, MLM的AUC结果。观察到有一个最优的权值来平衡MLMH或MLMS的全局信息和局部信息的重要性。于是我们看到了全局和局部语义对提高检索精度的贡献程度。在我们的研究中,对于MLMS来说,最佳的权值λ是在0.35附近。这就是我们在MLMS-Hybrid中设置λ=0.35的原因(见6.2节);另一方面,对MLMH来说,最佳的权值λ是在0.1附近,指明我们需要更看重局部信息。在MLHM的实验部分,我们简单地将λ设为0(见6.2节),即在段落中只包括局部语义信息。我们也为四类抄袭文档集绘制了在不同的权值下的Failed Detection Ratio曲线,见图Fig.7,因为不同的权值只影响MLMS-Hybrid方法的Failed Detection Ratio,可以看到较高的λ值也会导致较高的Failed Detection Ratio值。随着λ值的增加,MLMS-Hybrid变得比MLMS-Local(相当于λ=0)性能较差或相等(图Fig.7的第四类抄袭模式λ=0.55-0.75之间)。因此,可以得出,在PD系统的应用中,MLMS-Local比在MLMS中加入全局信息还要足够好。

6.4.2 特征映射后的维数

在这一小节,我们研究PCA特征的不同维数对相关DR的影响。 AUC(见公式30)度量被用来评价不同的NF下的DR性能。当N1=5000时,图Fig.8显示的是当PCA特征以10为步长从50增加到120时,AUC的变化曲线,可见,随着特征维数的增加,所有的3个MLMS方法的AUC值都在缓慢下降。因此,它表明较高的PCA特征维数在DR中并不能表现的很好,最优值的选择依赖于数据集。

6.4.3 词汇表V1的大小

在语言处理及其中,特征选择一直都是一个重要的问题。在此,我们使用VSM权值化方案(见公式1)来为词条分重要性等级,并为相关DR选择最初的N1个词条来构造词汇表V1。在这节中,我们研究了不同词汇表V1的大小对DR的AUC性能的影响。当NF=100时,我们绘制了其性能曲线(图Fig.9),词汇表的大小N1以1000为步长从3000增加到10000。结果表明在我们的数据集上进行的DR实验,不同的N1值几乎对性能没有影响,这是归于权值化方案将词汇表中重要的词分的等级较高。

6.4.4 词汇表V2的大小

在PD中,句子签名的构造是照着词汇表V2来做的。我们研究了不同的词汇表V2的大小对PD结果的影响,见图Fig.10中的曲线。实验参数的设置同6.3节。注意到,随着V2大小的增加,N2=20000时,前两组结果类似,同时比后两组表现的好一点,表明了大词汇表构造的签名促进增加了PD的精度,但也增加了存储的开销。

6.4.5 前提τ

前提τ用来控制哪些句子将被认定为抄袭部分,并计入距离融合处理(见5.1节)。它为句子距离函数提供了抄袭可行度。在对四类抄袭集上的实验结果的研究,我们定性地分析了不同的前提值τ和不同的缩放参数ε对结果平均等级的影响。图Fig.11(a)显示了第一类抄袭模式的实验结果,图中的曲线表明,随着前提值τ的增加,其性能呈下降趋势,最佳的缩放参数ε在0.4附近。图Fig.11(b)显示的是在第二类抄袭集上进行的实验数据曲线,它与图Fig.11(a)类似。对于最后两组抄袭集,较大的τ值表现出的性能较为类似,且比较小的τ值(如τ=0.5)表现的效果要差,见图Fig.11(c)和Fig.11(d)。

6.5 计算时间

计算时间是PD系统的一个主要关注点,因为它通常都涉及到一个大规模数据库。由于我们所提出的方法涉及两部分:相关DR和PD算法。我们通过分别地处理DR和PD来定性地执行了查询响应的研究。所有的实验都在一台PC上执行的,PC的配置为:Intel Core-2 2.13GHz,2GB内存,DR程序由C++语言实现,PD算法在Matlab7.01的环境中测试过。我们首先根据检索的文档数和查询时间绘制出曲线,如图Fig.12所示,可以看出,当检索的文档数从1000增加到10000时,计算开销显著地上升了。在实际中,我们首先只检索少

许的文档(通常小于1000,这里我们在PD中使用Nret=500)以便减少进一步在PD中句子匹配的困难。因为缩放参数ε直接影响到PD的时间性能,在图Fig.13中,我们绘制了平均时间性能的曲线,横坐标为缩放参数以0.1为步长从0到1变化的值,从曲线中可以看出,随着ε的增加,查询时间的开销呈指数级的上升。然而,我们通常设置ε<0.5,这将带来足够好的可接受的PD性能(见6.3节)。对于ε=0.5的情况,查询时间在133秒左右。如果使用C++语言而不是Matlab来实现PD算法,这可能在查询时间上显著缩短为数秒,于是,整个查询时间(包括DR和PD)将在1分钟或更短的时间内完成。因此,这表明我们所提出的方法应用在实时PD中并以一个可接受的系统响应时间是合适的。

7 讨论与扩展

当前开发一个有效的PD系统是非常费力的工作,因为在信息时代,抄袭发生的太容易了。尽管我们的实验是在模拟的平台上执行的,但也得出了一些有趣的结果:

? 使用节或段落中的局部信息可以明显地提升DR的性能,因为它利用了文档中词的空间

分布;

? 基于直方图的DR方法带一个合适的融合距离在PD中比纯粹的DR表现要好; ? 基于签名的DR方法在EMD的辅助下比DR和PD表现的都要好,因为它考虑到了段落

中的信息量,并将MLM转化成线性规划问题;

? 压缩特征大小的最佳选择依赖于数据集,但通常设置都100左右;

? 用于DR的词汇表的大小通常对结果没有影响,却增加了存储空间和计算负担,可以设置在几百以内;

? 执行PD(即构造句子签名)词汇表较大的尺寸促进了PD的精确效能;

? 用于控制在段落级搜索范围的缩放参数ε依赖于抄袭模式的不同,较小的ε适合于单一

的抄袭模式,而较大的ε适合用于多样的抄袭模式,根据经验,可以设置为0.5; ? 句子级别的前提τ可以设为0.5左右,但是较大的τ值会降低PD的性能;

? 在处理大规模数据集时,我们的系统在计算时间上不会有显著的增加,因为将抄袭检测

限制在一个有限的检索集合中,这样查询的响应的时间将会在可接受的计算范围内。

8 结论

在这项研究里提出了一个有效防抄袭的由粗到细的框架。每个文档被表示成多级结构,即文档-段落-句子。不同的签名被构造来表示文档不同级别的部分。介绍了通过增加或只使用局部信息的相关DR方法从文档中获取丰富语义,从而检索抄袭源。设计并实现了两个PD算法,通过深度匹配句子来鉴定抄袭源。在DR和PD上执行了大量的实验,并研究了参数的影响,对查询时间做了定性的研究。实验结果表明我们提出的方法在提升检测精度和效率上很给力,同时也显示出我们提出的PD系统在实时应用中是实际可行的。然而,当前我们的方法得出的结果只依赖于不复杂的抄袭模式,并且不考虑PD的条目顺序。事实上,很容易在我们的框架里加入基于n-元语法的句子匹配策略。在今后的研究工作中,我们计划在其他具有竞争的任务中研究我们的技术以检测出更复杂的抄袭模式,并探索多级文档匹配的更有效的搜索算法。我们也需要研究其他的文档特征表示方法以节省存储空间和计算时间。另一方面,自动设置参数(即缩放参数和前提参数)的问题也是未来要研究的一项工作。我们正在使用贝叶斯和其他概率方法来估计这些参数。 -------------------- 8

http://www.webis.de/research/corpora

8

致谢

笔者对广大匿名评论者致以万分的感谢,你们宝贵的评论提升了本文的水准。

引用

[1] T.C. Hoad, J. Zobel, Methods for identifying versioned and plagiarized documents, Journal of the American Society for Information Science and Technology 54 (3) (2003) 203–215.

[2] Tommy W.S. Chow, M.K.M. Rahman, Multi-layer SOM with tree structured data for ef?cient document retrieval and plagiarism detection, IEEE Transactions on Neural Networks 20 (9) (2009) 1385–1402.

[3] Tommy W.S. Chow, Haijun Zhang, M.K.M. Rahman, A new document representation using term frequency and vectorized graph connectionists with application to document retrieval, Expert Systems with Applications 36 (2009) 12023–12035.

[4] Haijun Zhang, Tommy W.S. Chow, M.K.M. Rahman, A new dual wing harmonium model for document retrieval, Pattern Recognition 42 (11) (2009) 2950–2960.

[5] G. Salton, M. McGill (Eds.), Introduction to Modern Information Retrieval,McGraw-Hill, 1983.

[6] S. Deerwester, S. Dumais, Indexing by latent semantic analysis, Journal of the American Society of Information Science 41 (6) (1990) 391–407.

[7] T. Hofmann, Probabilistic latent semantic indexing, in: Proceedings of the Twenty-Second Annual International SIGIR Conference, 1999.

[8] D. Blei, A. Ng, M. Jordan, Latent Dirichlet allocation, Journal of Machine Learning Research 3 (2003) 993–1022.

[9] M. Welling, M. Rosen-Zvi, G. Hinton, Exponential family harmoniums with an application to information retrieval. In: Advances in Neural Information Processing Systems, vol. 17, MIT Press, Cambridge, MA, 2004, pp. 1481–1488.

[10] P. Gehler, A. Holub, M. Welling, The rate adapting Poisson model for information retrieval and object recognition, in: Proceedings of the 23rd International Conference on Machine Learning, Pittsburgh, PA, 2006.

[11] R.B. Yates, B.R. Neto, in: Modern Information Retrieval, Addison Wesley Longman, 1999. [12] S.M. Chen, Y.J. Horng, C.H. Lee, Document retrieval using fuzzy-valued concept networks, IEEE Transactions on Systems, Man, and Cybernetics B 31(1) (2001) 111–118.

[13] J. Bear, D. Israel, J. Petit, D. Martin, Using information extraction to improve document retrieval, in: Proceedings of the Sixth Text Retrieval Conference (TREC 6), Gathiersburg, MD, November 1997, pp. 367–377. [14] R. Gaizauskas, Y. Wilks, Information extraction: beyond document retrieval,Journal of Documentation 54 (1) (1998) 70–105.

[15] A. Georgakis, C. Kotropoulos, A. Xafopoulos, I. Pitas, Marginal median SOM for document organization and retrieval, Neural Networks 17 (3) (2004) 365–377.

[16] K. Lagus, Text retrieval using self-organizing document maps, Neural Processing Letters 15 (2002) 21–29.

[17] M.K.M. Rahman, P.Y. Wang, T.W.S. Chow, S.T. Wu., A ?exible multi-layer self organizing map for generic processing of tree-structured data, Pattern Recognition 40 (5) (2007) 1406–1424. [18] N. Rooney, D. Patterson, M. Galushka, V. Dobrynin., A scalable document clustering approach for large document corpora, Information Processing and Management 42 (5) (2006)

1163–1175.

[19] L.A.F. Park, K. Ramamohanarao, M. Palaniswami., A novel document retrieval method using the discrete wavelet transform, ACM Transactions on Information Systems 23 (3) (2005) 267–298. [20] Y. Yang, J. O. Pedersen, A comparative study on feature selection in text categorization, in: Proceedings of the International Workshop on Machine Learning, 1997.

[21] M. Steinbach, G. Karypis, V. Kumar, A comparison of document clustering techniques, in: Proceedings of the KDD Workshop on Text Mining, 2000.

[22] F. Sebastiani, Machine learning in automated text categorization, ACM Computing Surveys 34 (1) (2002) 1–47.

[23] M. Fuketa, S. Lee, T. Tsuji, M. Okada, J. Aoe., A document classi?cation method by using ?eld association words, Information Sciences 126 (1–4) (2000) 57–70. [24] C.M. Tan, Y.F. Wang, C.D. Lee., The use of bigrams to enhance text categorization, Information Processing and Management 38 (4) (2002) 529–546.

[25] M.L. Antonie, O.R. Zaiane, Text document categorization by term association,in: Proceedings of the IEEE International Conference on Data Mining ICDM2002), 2002, pp. 19–26.

[26] A. Selamat, S. Omatu, Web page feature selection and classi?cation using neural networks, Information Sciences 158 (2004) 69–88.

[27] L.M. Manevitz, M. Yousef., One-class SVMs for document classi?cation,Journal of Machine Learning Research 2 (2001) 139–154.

[28] S. Singh, L. Dey., A new customized document categorization scheme using rough membership, Applied Soft Computing 5 (4) (2005) 373–390.

[29] N. Bouguila, Clustering of count data using generalized Dirichlet multinomial distributions, IEEE Transactions on Knowledge and Data Engineering 20 (4)(2008) 462–474.

[30] X. Cui, J. Gao, T.E. Potok., A ?ocking based algorithm for document clustering analysis, Journal of Systems Architecture 52 (8–9) (2006) 505–515.

[31] B. C. M. Fung, K. Wang, M. Ester, Hierarchical document clustering using frequent itemsets, in: Proceedings of the Third SIAM International Conference on Data Mining, 2003, pp. 59–70. [32] S.L. Bang, J.D. Yang, H.J. Yang, Hierarchical document categorization with k-NN and concept-based thesauri, Information Processing and Management 42(2006) 387–406.

[33] A. Parker, J.O. Hamblen, Computer algorithms for plagiarism detection, IEEE Transactions on Education 32 (2) (1989) 94–99.

[34] S. Brin, J. Davis, H. Garcia-Molina, Copy detection mechanisms for digital documents, in: Proceedings of the of The ACM SIGMOD Annual Conference,1995, pp. 398–409.

[35] N. Shivakumar, H. Garcia-Molina, Building a scalable and accurate copy detection mechanism, in: Proceedings of the First ACM Conference on Digital Libraries (DL’96), Bethesda, MD, 1996, pp. 160–168.

[36] K. Monostori, A. Zaslavsky, H. Schmidt, MatchDetectReveal: ?nding overlapping and similar digital documents, in: Proceedings of the 2000 Information Resources Management Association International Conference on Challenges of Information Technology Management in the 21st Century, Anchorage, Alaska, United States, 2000, pp. 955–957.

[37] N. Heintze, Scalable document ?ngerprinting, in: Proceedings of the Second USENIX Workshop on Elctronic Commerce, Oakland, CA, November, 1996, pp.18–21.

[38] R.A. Finkel, A. Zaslavsky, K. Monostori, H. Schmidt, Signature extraction for overlap detection in documents, in: Proceedings of the 25th Australasian Conference on Computer Science,

Melbourne, Victoria, 2002, pp. 57–64.

[39] Sven Meyer zu Ei?en, Benno Stein, Marion Kulig, Plagiarism detection without reference collections, in: Reinhold Decker, Hans J. Lenz (Eds.), Advances in Data Analysis, 2007, pp. 359–366.

[40] Alberto Barro′ n-Ceden?o, Paolo Rosso, On automatic plagiarism detection based on n-grams comparison, in: Boughanem et al. (Eds.), ECIR 2009, Lecture Notes in Computer Science, vol. 5478, pp. 696–700.

[41] A. Si, H.V. Leong, R.W.H. Lau, CHECK: a document plagiarism detection system, in: Proceedings of the ACM Symposium for Applied Computing, February 1997, pp. 70–77. [42] Esben H?gh-Rasmussen, in: BBTools—a Matlab Toolbox for Black-Box Computations, Neurobiology Research Unit, /http://nru.dk/software/bbtools/S.

Copenhagen

University

Hospital,

2005

URL:

[43] Y. Rubner, C. Tomasi, L.J. Guibas., The Earth Mover’s Distance as a metric for image retrieval, International Journal of Computer Vision 40 (2) (2000)99–121.

[44] Francesc Serratosa, Alberto Sanfeliu, Signatures versus histograms: de?nitions, distances and algorithms, Pattern Recognition 39 (5) (2006)921–934.

[45] X. Gao, B. Xiao, D. Tao, X. Li, Image categorization: graph edit distance+edge direction histogram, Pattern Recognition 41 (10) (2008) 3179–3191.

Haijun Zhang received his B.Eng. degree in the Department of Civil Engineering and Master degree in the Department of Control Theory and Engineering from the Northeastern University, Shenyang, PR China in 2004 and 2007, respectively. He worked as a research assistant at the City University of Hong Kong in April–September 2007. He is currently working towards his Ph.D. degree at the City University of Hong Kong, Hong Kong. His research interests are evolutionary computation, structure optimization, neural networks, machine learning, data mining, pattern recognition and their applications.

Tommy W.S. Chow (IEEE M’93–SM’03) received his B.Sc. (First Hons.) and Ph.D. degrees from the University of Sunderland, Sunderland, U.K. He joined the City University of Hong Kong, Hong Kong, as a Lecturer in 1988. He is currently a Professor in the Electronic Engineering Department. His research interests include machine fault diagnosis, HOS analysis, system identi?cation, and neural network learning algorithms and applications.

本文来源:https://www.bwwdw.com/article/0cdp.html

Top