中文异构百科知识库实体对齐 - 图文

更新时间:2024-04-27 20:54:01 阅读量: 综合文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

龙源期刊网 http://www.qikan.com.cn

中文异构百科知识库实体对齐

作者:黄峻福 李天瑞 贾真 景运革 张涛 来源:《计算机应用》2016年第07期

摘要:针对传统实体对齐方法在中文异构网络百科实体对齐任务中效果不够显著的问题,提出一种基于实体属性与上下文主题特征相结合的实体对齐方法。首先,基于百度百科及互动百科数据构造中文异构百科知识库,通过统计方法构造资源描述框架模式(RDFS)词表,对实体属性进行规范化;其次,抽取实体上下文信息,对其进行中文分词后,利用主题模型对上下文建模并通过吉布斯采样法求解模型参数,计算出主题单词概率矩阵,提取特征词集合及对应特征矩阵;然后,利用最长公共子序列(LCS)算法判定实体属性相似度,当相似度位于下界与上界之间时,进一步结合百科类实体上下文主题特征进行判定;最后,依据标准方法构造了一个异构中文百科实体对齐数据集进行仿真实验。实验结果表明,与经典的属性相似度算法、属性加权算法、上下文词频特征模型及主题模型算法进行比较,所提出的实体对齐算法在人物领域和影视领域的准确率、召回率与综合指标F值分别达到97.8%、88.0%、92.6%和98.6%、73.0%、83.9%,比其他方法均有较大的提高。实验结果验证了在构建中文异构百科知识库场景中,所提算法可以有效提升中文百科实体对齐效果,可应用到具有上下文信息的实体对齐任务中。 关键词:

知识库;实体对齐;主题模型;资源描述框架模式;最长公共子序列算法 中图分类号: TP391.1 文献标志码:A 0引言

语义网[1]提供一种在不同应用和个体间共享和重用数据的整体框架,是Web 3.0的重要特征。目前万维网主要面向文档,供人直接阅读和理解;语义网则主要面向文档所表示数据,使计算机能够理解并通过推理引擎进行逻辑演算,是人工智能的重要目标。语义网的建立需要高质量的知识库作为数据支撑。目前,国外具有代表性的知识库有FreeBase[2]、DBpedia[3]、维基百科本体知识库(Yet Another Great Ontology,YAGO[4])及Omega[5]等;国内的知识库有百度知心、搜狗知立方及清华大学双语知识库XLore[6]。知识库在知识图谱、智能语义问答及信息融合等自然语言处理领域均有重要意义[7]。国外的知识库如FreeBase等提供了公开的资源描述框架(Resource Description Framework, RDF)数据源,但所含中文数据量较少,如何构建高质量的中文RDF知识库是目前的研究热点。

实体(Entity)是指客观存在并可相互区别的事物,包括具体的人、事、物、抽象的概念或联系,知识库中包含多种类别的实体。实体对齐(Entity Alignment)也被称作实体匹配(Entity Matching),是指对于异构数据源知识库中的各个实体,找出属于现实世界中的同一

本文来源:https://www.bwwdw.com/article/7bcg.html

Top