关联数据发布技术和工具
更新时间:2024-07-04 20:27:01 阅读量: 综合文库 文档下载
利用关联数据实现机构知识库的语义扩展方法研究
【摘要】首先,对关联数据的相关技术进展进行研究,并分析其在数字图书馆知识库领域的应用现状,同时结合机构知识库在语义扩展方面的需求,研究利用关联数据实现机构知识库语义扩展的关键技术,形成机构知识库语义扩展的核心方法。其次,以中国科学院机构知识库平台CASIR为例,抽取其可扩展的实体关系并添加约束规则,应用D2RQ开源工具进行RDF化的知识呈现和语义标注,最终将其扩展到DC、FOAF、SKOS、ISWC、Vcard等关联词表及DBpedia Ontology、DBLP Bibliography外部数据源。实验证明,该方法合理可行,为加速国科图实现从基础服务版的机构知识库到语义集成资源版的机构知识库的发展蜕变奠定了基础。
【关键词】关联数据 机构知识库 语义扩展 RDF D2RQ 【分类号】G250.76
Study on the Semantic Expansion of Institutional Repository
Based on Linked Data
Wang Sili Zhu Zhongming Yao Xiaona Zheng Lei
(The Lanzhou Branch of the National Science Library ,Chinese Academy of Sciences, Lanzhou
730000,China)
【Abstracts】Firstly, The paper studies the related technology development of the linked data and analyses the application situation of linked data in digital library,then combines with the Institutional repository’s demand to study on the key technology and finally propse the core methd for realizing the Semantic Expansion of Institutional repository based on linked data. Secondly, taking the CASIR for example, the paper extracts the entity relationship of the CASIR and adds some constraints rules to it, then uses the D2RQ to carry out the knowledge representation and semantic annotation as RDF format. Finally ,It can expand the CASIR to DC、FOAF、ISWC、Vcard、DBpedia Ontology、DBLP Bibliography . In fact,the method should lay a good foundation in accelerating the CASIR providing not only basic service but also a real sematic integration sevice with its rationality and feasibility in the future.
【Keywords】Linked data Institutional repository Semantic Expansion RDF D2RQ
1
目录
1引言 ........................................................................................................................................ 3 1.1 研究背景及意义 ............................................................................................................ 3 1.2 研究目标和内容 ............................................................................................................ 4 1.3 研究方法和路线 ............................................................................................................ 4 2关联数据的相关技术与典型应用案例分析 ........................................................................ 5 2.1关联数据的产生和发展背景 ......................................................................................... 5 2.2 关联数据的相关技术进展研究 .................................................................................... 6 2.2.1关联数据的创建、发布、浏览的相关技术和工具 .............................................. 6 2.2.2关联数据的应用、融合、Mashup的相关技术和项目 ...................................... 10 2.3与数字图书馆相关的典型应用案例分析 ................................................................... 12 3利用关联数据实现机构知识库的语义扩展方法研究 ...................................................... 13 3.1机构知识库语义扩展的需求和关键技术定位 ........................................................... 13 3.2应解决的关键问题和解决方案 ................................................................................... 14 4机构知识库语义扩展模块的设计和实现 .......................................................................... 16 4.1抽取实体关系和添加关联规则 ................................................................................... 16 4.2利用D2RQ进行语义标注和关联 ................................................................................ 18 5 语义扩展模块的运行和应用测试 ..................................................................................... 22 5.1基本运行情况 ............................................................................................................... 22 5.2用户测试及反馈的意见 ............................................................................................... 26 6结论 ...................................................................................................................................... 28 参考文献: ............................................................................................................................. 31 附件: ..................................................................................................................................... 32 附件1 iswc.n3 ..................................................................................................................... 32
2
1引言
1.1 研究背景及意义
机构知识库(Institutional Repository,IR)是知识开放获取运动的产物,是大学以及科研机构对其知识资产进行有效管理的工具,是机构知识能力建设和服务能力提升的重要机制。当前,随着语义网技术的不断推进和白热化发展,从“面向用户”到“面向机器”,从信息描述到知识呈现,从语义隐含到语义揭示,从以概念为中心到以“概念-关系”为中心,从信息表示到智能推理,面对越来越高的科研需求,传统的机构知识库愈发显得责任重大。
[2]
2011年7月,在西班牙的赛博计量学实验室(Cybermetrics Lab)推出的世界开放获取机构知识库的200强排名名单中,整个大中华地区,排名最靠前的是National Taiwan University(国立台湾大学),位于第24位。其次分别是位于第67位的National Cheng Kung University(国立成功大学)、位于第80位的University of Hong Kong(香港大学)、以及位于第89位的National Chiao Tung University(台湾交通大学)。中国大陆的北京大学和清华大学只排到了第109位和第197位。该实验室评价机构知识库影响力的指标主要有4个: (1)规模(Size)。用Google、Yahoo、Bing Search、Baidu这四大搜索引擎能够索引到的总页数去衡量。
(2)可见度(Visibility)。用从该机构知识库获取到的不同外部链接的总数去衡量。 (3)内容丰富性(Rich Files)。用包含相关学术文献和科研作品的不同格式的文件总数去衡量,主要指Adobe Acrobat (.pdf), Adobe PostScript (.ps), Microsoft Word (.doc) and Microsoft Powerpoint (.ppt). (4)学术性(Scholar)。将Google Scholar中能搜索到的该机构知识库2006至2010年公开发表的条目总数以及从Scimago SIR中获取到的2004至2008年的全部产出结合在一起去衡量。
这些指标分别占的权重如下,见图1:
[1]
图1机构知识库各评价指标所占权重
数据来源:http://www.webometrics.info/about_rank.html
仔细评估这些指标,我们可以发现,指标(3)和(4)基本属于机构知识库自身的硬性条件,需要依靠知识资产的长期积累去提升。而指标(1)和(2)的影响因子一共占到了70%,比例大,权重高,并且是能够通过对现有的机构知识库进行扩展而得以提高。
因而,要想在 “优胜劣汰”的行业竞争法则中占有一席之地,我们必须考虑进行机构知识库的语义扩展,扩大机构知识库的“规模”,提高机构知识库的“可见度”,从根本上拓展和丰富机构知识库的服务方式,加快提高发现内容和传递服务质量的步伐,以确保机构知识库的服务比网络上其他信息提供者更具竞争力,从而更深层次地推动机构知识库的建设和发展应用。
3
1.2 研究目标和内容
通过对机构知识库和关联数据的初步研究证实,资源发现对机构知识库建设是极其重要的,而关联数据的优越性则为机构知识库的资源发现服务提供了可能的增强途径和方法。中国科学院机构知识库以发展机构知识能力和知识管理能力为目标,能够实现对机构知识资产的收集、长期保存、合理传播利用,这是它自身的优越性。但在语义网的高标准要求下和面对各个研究所以及大学等越来越综合和复杂的信息环境来看,仍迫切需要增强语义扩展,积极建设对知识内容进行捕获、转化、传播、利用和审计的能力。因而围绕这一基本原则和需求,提出了本项目的研究目标和内容:
(1)首先,调研和分析关联数据的发展背景和应用现状,着重掌握并评估其相关技术的进展情况和相关工具的使用方法;同时,对其与数字图书馆知识库领域紧密结合的相关典型应用案例进行透彻分析,探讨机构知识库中数字对象间的知识组织关系,研究利用关联数据实现机构知识库语义扩展的关键技术,为进一步实现机构知识库的语义扩展奠定基础。 (2)其次,以中国科学院研究所机构知识库平台(Chinese Academy Sciences
[3]
Institutional Repository,CASIR)为例进行试验研究,将上述关键技术转化为具体的可实施的语义扩展方案,抽取CASIR中重要的实体关系并添加约束规则,选择合适的关联数据源或关联词表,利用RDF进行知识呈现和语义标注,最终实现其和外部数据源间的关联。
1.3 研究方法和路线
针对研究目标和内容,本文的研究方法主要有两种:
(1)文献调研法:对关联数据的相关技术进展和典型应用案例进行跟踪调研,研究利用关联数据实现机构知识库的语义扩展的关键技术。
(2)信息系统分析设计法:结合中国科学院机构知识库平台CASIR的语义扩展需求,将其核心的实体关系RDF化,并实现和外部数据源间的关联。
项目具体的实施路线如下,见图2:
4
文献调研 相关技术进展研究 典型应用案例分析 语义扩展的关键技术和方法 信息系统分析设计 关联数据源 D2R工具 CASIR语义扩展试验 研究报告 图2 项目实施路线
2关联数据的相关技术与典型应用案例分析 2.1关联数据的产生和发展背景
关联数据(Linked Data)的概念最早是在2006年由被誉为互联网之父的Tim Berners-lee提出,并同时发布了关联数据开放的四条基本原则: (1)使用URI作为任何事物的标识;
(2)使用HTTP URI使任何人都可以访问这些标识;
(3)当有人访问某个标识时,使用(RDF,SPARQL)标准提供有用的信息; (4)尽可能提供相关的URI,以使人们可以发现更多的事物。
该原则提供了在语义网中使用URI和RDF发布、分享、连接各类数据、信息和知识,部署实例数据和类数据的方法,从而使得人们可以通过HTTP协议揭示并获取这些数据。具体来说,RDF对资源的表达通过一系列的三元组来实现,每个三元组由主语(Subject)、谓词(Predicate)和对象(Object)三个部分组成,构成一个声明。主语是URI所标识的资源,实例对象可以是一个字符串,如字母、时间、数字等,也可以是一个URI,或是与主语有关的其他资源的标识符,即RDF链接(RDF Link)。谓词表明了主语和对象之间的关系,谓词也可以是URI,比如来自某一词表或URI集合。RDF链接不仅可以链接同一数据源中的资源,还可以与其他数据源链接,这些数据源可能是两个处于不同地理位置的机构所维护的数据库,也可能是一个机构内的无法在数据层面上进行互操作的不同系统,最终使得用户能跟随RDF链接浏览整个数据Web。因此,RDF链接是数据Web的基础,它将独立的资源编织成数据Web,通过数据Web,关联数据浏览器或搜索引擎的网络爬虫能够遍历整个网络。它与普通网页间的URL链接最大的不同之处就在于,它强调通过建立已有信息的语义标注和实现数据之间的相互关联,进而形成有益于人机理解的语境信息,为最终构建并实现机器可读到机器可理解的语义
5
网奠定了坚实的基础。关联数据为能够图书馆、高校和学术项目提供更强的跨界搜索和发现数字信息的能力,已成为信息系统、计算机科学、图书情报学甚至是生物医学、社会科学等诸多学科领域研究的热点,被人们视为语义网数据网络技术的核心和关键。
2.2 关联数据的相关技术进展研究
2.2.1关联数据的创建、发布、浏览的相关技术和工具
早期国内外对关联数据的研究主要集中在如何将不同格式的非语义数据类型转换成关联数据即RDF三元组格式进行存储、发布和浏览的问题上。研究的领域一般是和人们生活密切相关的社会公共领域及基础网络信息服务领域。通常需要考虑已有数据的规模、数据的格式、存储的模式、更新的频率等去设计实际的转换方案。一般主要有以下几种方式:
(1)直接创建和发布静态的RDF文件。这种方式比较简单,一般多依赖于用户或兴趣团体手工创建或者使用较为简单的软件进行转换输出。一般只需按照软件的提示进行操作,有的时候可能需要为非信息资源对象设置相应的URI,配置标准的多用途互联网邮件扩展MIME(Multipurpose Internet Mail Extensions)的类型。通常适合数据量较少、对数据规范要求不太严格、不占用较大的服务器空间、只需简单存储或可将较大的文件拆分存储和发布、也不需要经常更新的情况。
[4]
最常见的应用就是发布个人的FOAF文件或者RDF词表等。如FOAF-a-matic和
[5]
FOAFaMaticMark2就是两款简单的创建个人FOAF文件的应用程式,前者是基于JavaScript的普通网页格式,后者是基于桌面工具的应用模式。用户只需要按照给定的项填写自己的名字、邮箱地址以及所认识朋友的名字、邮箱地址或个人主页等,即可快速地创建一个关于自己的FOAF档案,然后通过本地的服务器直接进行发布。也可以使用FOAF公布栏(FOAF Bulletin Board)功能将FOAF档案加入到网页当中,通过FOAFbot进行索引以便用户查询。如果用普通的浏览器去浏览,会直接下载到该foaf.rdf文件,需要用Dreamweaver或者相关的软件程序去打开。如果用语义浏览器或专门的RDF浏览器去浏览,则可以对该RDF文件中可访问的三元组进行连续性的可视化的探查。目前可选用的浏览器主要有Tabluator
[6][7][8]
Extension for Firefox、OpenLink的RDF浏览器和Disco等。以Disco为例,它主要是以一种基于表的布局样式来显示每个三元组的来源图从而提供对来源信息的访问,详细情况会显示在Disco右侧的sources列,见图3。
6
图3 Disco浏览器基本界面
图片来源:http://www4.wiwiss.fu-berlin.de/bizer/ng4j/disco/
(2)将其他类型的数据转换为RDF格式进行存储。如将PDF、Word、Visio、CSV、Excel、BibTex等传统格式的数据转换成RDF格式,可借助于一些RDF化的工具,术语统称为RDFizer。该方法适合于数据格式严格规范、数据量较大但可拆分、数据存储模式相对简单的情况,借助工具能够进行批量转换,减少人工创建所花费的开销,提高转换的效率和准确率。常用的RDFizer主要有以下几种,下载地址见表1:
表1 RDF格式转换工具
工具名称 Aperature Javadoc RDFizer RDF123 Torrent2RDF Filckurl
下载站点
http://aperature.sourceforge.net/
http://simile.mit.edu/wiki/Javadoc RDFizer/ http://rdf123.umbc.edu/
http://www.inf.unideb.hu/~jeszy/rdfizers/torrent2rdf-0.3.zip http://librdf.org/flickcrl/
①Aperature。它是一个即装即用(Out-of-the-box)式的爬虫系统框架,包括iCal、IMAP和文件系统等。它主要用于在多种格式的数据之上进行爬行、抽取和索引等操作,目前支持JPEG、MP3、PDF、Word以及Visio文档等超过20类信息的抽取,并可以帮助科研人员将相应的数据和元数据转换为RDF格式。
②Javadoc RDFizer。该项目由MIT的Simile团队开发,建立了一个doclet程序,对外提供了可调用的doclet API,可以将任何与javadoc兼容的数据格式转换为RDF格式。
③RDF123。该工具是由美国的马兰里大学研究开发,主要用于处理简单电子表格信息,
7
如将那些使用HTML制表标签的文件和使用逗号分隔的CSV格式的文件的数据进行处理,最后以RDF格式输出。
④Torrent2RDF。该软件工具采用java语言编写,可以读取torrent文件或Torrent URI并以RDF格式抽取其相应信息并输出。该软件采用了GNU GPL许可协议,开发人员可以根据自己的需要对其进行灵活的扩展和进行二次开发。
⑤Flickcurl。它是Dave Beckett开源软件开发小组基于C语言实现的一个小型转换工具,主要用于将Flickr数据,如照片元数据、标签和位置等转换为RDF格式。
目前,Open Linked Data项目已经使超过20亿条传统网页上的数据,包括维基百科、图书馆MARC目录等半自动或者自动地转换成了关联数据。世界著名的大型媒体公司,如BBC,纽约时报,也已经把他们的海量数据转换成了关联数据提供了开放下载功能。英国、美国、奥地利、新西兰、挪威等国都已经率先开始筹备政府信息语义网的相关建设工作,目标是把主要的政府信息发布成关联数据,并试图建立起一个规范的可以重用数据的通用协议。 (3)扩展已有API抓取和关联RDF格式的数据。该技术方法通常适合数据量多,数据格式复杂,数据流通性比较快捷的一些项目,主要是搜索引擎或者门户型网站平台等。如Google and Google Base,eBay,Yahoo,Amazon等主流应用平台一般都有自己的API,提供了多样化的查询、检索接口以及多种格式的返回结果(如XML、JSON或Atom)等,造成了一般数据浏览器访问的困难和搜索引擎抓取数据的不便。而利用关联数据可以对这些已有的API进行扩展,并为一些非信息资源分配一定的URI,当以Application/RDF+XML格式进行查询请求时,可以获取到RDF格式的结果数据,以便机器进行自动处理。同时可以通过解析抓取到的RDF中的URI关联到其他外部数据源的数据。目前,像Google、Yahoo等主流搜索引擎等已经能够抓取关联数据,利用关联数据丰富其检索结果和服务。关联数据的应用还有助于增加政府的
[9]
透明度。现在已经可以看到Data.gov网站以关联数据形式整合和可视化政府数据,为公众
[10]
提供服务。GovWILD是Hasso Plattner研究院和IBM的Almaden实验室合作开发的项目,它集成了政治家、政党、政府机构、公司和工业领导人等开放的政府数据,利用关联数据对其进行可视化链接和显示,以揭示并反映隐藏在政府、企业和政治家背后的潜在的利益关系和社交网络。
(4)将关系数据库公开为RDF接口。语义web的主要驱动力之一就是如何将web上的海量关系数据库信息以计算机可处理的方式进行表达。因为,目前关系数据库(RDB)是语义web最大的数据源之一,大多数网站都习惯于使用关系数据库来存储数据。而RDF和OWL都适用于对基于实体-关系(ER)模型的关系数据库中所表达的信息进行建模。目前,已经有多种工具可以用于将关系数据库中的数据公开为虚拟RDF视图,从而作为一个SPARQL端点被用户浏览和访问,并能够进行一定的查询和推理。详细见下表2:
表2 将关系数据库公开为RDF接口的工具
工具名称 D2RQ SquirrelRDF DB2RDF Virtuoso Joseki
下载站点
http://www4.wiwiss.fu-berlin.de/bizer/d2rq/ http://jena.sourceforge.net/SquirrelRDF http://db2rdf.sourceforge.net/ http://virtuoso.openlinksw.com/ http://www.joseki.org/
其中最常用的是D2RQ工具,通过添加一定的约束规则,可以生成和构造一个映射文件,从而将关系数据库中的表和列映射到本体的类和属性上,本项目就是基于D2RQ工具进行开发,将在后面的实验模块对D2RQ作详细的介绍。SquirrelRDF工具主要是通过创建轻量级目录访问协议LDAP(Lightweight Directory Access Protocol)模式和RDF之间的映射,把相应的关系数据库公开以进行SPARQL查询。DB2RDF是一个基于java语言开发,遵循了
8
GPL许可协议的小型转换工具,一般用于将本地的关系数据库转换为可进行SPARQL查询测试的桌面程序。具体应用时,需要使用java -jar \命令,启动程序,在数据量较大的时候,程序运行十分缓慢,因而并不适用于进行服务器端的开发,见图4。Virtuoso是由Openlink软件公司开发的应用程序,它可以处理XML、RDF、ODB和关系数据库存储,以及web服务和应用程序服务器。其中DBpedia知识库的SPARQL端点,就是由Virtuoso提供的,见图5。Joseki是由开发Jena语义web框架的惠普实验室开发的。Joseki构建于Jena的多语言查询引擎ARQ之上,同时支持ARQ、RDQL以及SPARQL等多种查询语言,被认为是目前托管SPARQL端点的最为快捷的方式。 这些工具虽然在具体应用时各有侧重点,但都提供了通用的机制,仅仅需要修改和进行一些配置就可以投入使用,使得将关系数据库快速公开为一个RDF知识库的过程变得相对简单和可行。但对于数据模式比较复杂或者数据模式没有正确定义,亦或者数据库中含有不一致性数据的关系数据库,在将其进行处理并转换为RDF的过程中需要根据实际情况加入额外的处理步骤。
图4 DB2RDF工具界面
9
图5 DBpedia的SPARQL端点 图片来源于:http://dbpedia.org/sparql
2.2.2关联数据的应用、融合、Mashup的相关技术和项目
对关联数据的创建、发布、浏览的相关研究是对关联数据自身基础技术的研究,而如今,随着互联网上关联数据的不断增加,有关的研究已经开始扩展到利用关联数据实现数据网络和合作技术即数据融合技术、语义Web嵌入到个人桌面环境的嵌入技术、Mashup主动服务技术、本体的重组技术、语义自动问答技术、语义搜索引擎技术等方面。同时,关联数据的应用领域也扩展到了化学、生物、医学、教育、科研等领域。对关联数据的应用、融合、Mashup技术的研究是关联数据技术研究提升的一个更高的层次,也是关联数据发展的必然结果。目前,国内外在这一技术领域开展了很多探索性的前沿研究项目,代表性的主要有以下几个:
[11]
(1)OREChem项目。该项目是eScience下关联数据在化学领域的代表性应用,是由化学学者和信息科学家合作开发和实施的。它致力于研究和部署基础设施、服务和应用去促使学术资料在化学界传播的新模式的产生。项目的主要研究内容是开发一个核心数据模型或本体去描述和标示化学科研实体以及它们之间的相互关系,然后根据该数据模型将已有的化学数据关联扩展到各种外部化学数据源,期望建立不同数据提供者之间的联系。最终创建一个化学数据社会网络,从而增强化学数据的结构化检索。
[12]
(2)Bio2RDF项目。该项目主要运用了Sesame的开源三元组存储技术和OWL本体,将一些来自于公共生物学知识库如Kegg、PDB、MGI、HGNC、NCBI的文档可以有效地以一个唯一的URI形式http://bio2rdf.org/namespace:id转换为RDF格式,构建了一个生物学数据和知识组织的Mashup系统。
[13]
(3)Linking Open Drug data项目。该项目的目标是建立一个开放的医药数据自动问答系统(LODD),主要是利用关联数据把来自不同数据源的医药数据关联起来,在此基础上回答一些相关的医学和商业的问题。目前该数据集含有超过8万个RDF三元组以及37万个RDF内部链接,见图6。
10
图6 LODD关联数据集
图片来源于:http://www.w3.org/wiki/HCLSIG/LODD
(4)JISC的相关项目。JISC(Joint Information Systems Committee)是英国致力于研究信息和数字化技术在教育和科研领域应用的专业团队。目前,该团队的关键资源发现活动包含了元数据自动生成、信息抽取、文本标注、基于标签的语义资源发现等21个方案、85个项目、5项服务。SemTech项目就是其中之一,目标是在将各个高等教育机构之间的教育、教学资料和课程资料发布为关联数据进行共享,并构建教育类本体, 实现基于本体的数据分析和推理应用。CheTA是一个化学文本标注系统,该项目整合了剑桥大学的文本挖掘工具OSCAR和U-Compare的工作流程,期望增加化学知识到世界最大的支持公共互操作采集的文本挖掘工具中去。目前,基于UCC和RSC的研究和整合已经完成,项目下一步将会实现不同类型和出处的化学文档的索引功能,并对系统做出常规的科学评估,期望借助真实世界用户对元数据的需求研究以及所抽取的元数据实用性之间的对比研究而发展成为一个严格的标注研究评估框架。该系统最终会同时支持人工和机器的自动索引。目前该应用系统利用关联数据公开了部分信息源,并提供了专业的维护,自动和可持续的文本挖掘服务,将会很大程度上的增强我们的资源发现服务。
(5)语义搜索引擎项目。目前,关联数据在科研领域的应用主要是利用关联数据扩展已有数据源,填充和构建本体模型,最终实现语义搜索和查询。因而,语义搜索引擎的研究便首当其冲,成为专家和科研学者研究的热点之一。根据服务对象的不同,语义搜索引擎一般
[15][16][17]
又可分为两种。其一是,面向用户的关联数据搜索引擎,如Falcons、SWSE、Arnetminer、
[18]
Yovisto等,为用户提供基于关键词的检索服务,不仅返回相关的检索结果链接,还提供相关实体的概况。Falcons语义搜索引擎是中国东南大学开发的,提供对象、概念及文档的语索,它主要关联了DBpedia知识库的内容。Arnetminer是清华KEG实验室研制的关于学术研究网络的搜索和挖掘引擎,它使用了语义Web本体技术,扩展了FOAF,主要提供研究人员及其出版物的搜索,其中的数据主要来自DBLP(Digital Bibliography & Library Project)数据源。具体包括如下功能:检索学术研究人员或特定领域的专家,获得人员的详细情况和出版物;检索会议或出版物,获得更为详细的信息;检索两个研究人员之间的联系,如两个教授之间的可能联系路线,根据两个学术机构之间的路径长短进行联系加权。Yovisto是关于学术报告和会议视频的搜索引擎。它提供基于内容的演讲录音搜索,可以有效访问超过6200个来自于世界各地的大学和科研机构的演讲录音。Yovisto通过关联数据丰富了搜
11
[14]
索引擎的检索结果,来改善用户的使用体验,将Yovisto的内容与关联数据网连接起来,将外部的其他信息纳入到Yovisto中,同时还通过外部信息交叉连接再回到Yovisto自己的内
[19][20][21]
容中。其二是,面向应用的关联数据索引引擎,如Sindice、Swoogle、Waston等,提供关联数据的API接口,利用接口可以对包括实例数据的RDF文档进行访问。Swoogle和Waston提供本体的发现服务,返回与查询相关的概念。Sindice既支持用户的关键词检索服务,也支持机器的自动查询与结果分析利用,它由世界上最大的语义Web研究机构DERI (Digital Enterprise Research Institute)进行研制,对关联数据进行监测、采集、存储和整合。
总之,围绕关联数据世界各国都竞相展开了相关的研究,并促成了一系列相当前沿的国际会议。如LDOW、DC2009、ALA2009、ISWC2009、AAAI2010、ISWC2010、ISWC2011等国际会议都对关联数据的相关技术进行了研讨交流,研究内容涉及关联数据的出版、发布、浏览、的基础问题以及关联数据的应用架构、关联算法、语义互操作、如何与web数据进行合作和融合、如何与人工智能进行交互等高级应用层的问题。2011年3月,Andrew W.Mellon基金更是先后出资49500美元和50000美元分别赞助了美国图书馆信息资源委员
[22]
会(CLIR)和斯坦福大学进行关联数据的项目研究,主要通过研究关联数据的标准规范和实际需求,并在技术层面设计一个跨国、跨机构的原型系统以证明关联数据可以改善资源发现和资源导航的效果。
2.3与数字图书馆相关的典型应用案例分析
在过去的几年里,数字图书馆机构知识库主要通过主题标目和机读编目格式标准MARC(MAchine-Readable Cataloging)的记录数据去实现资源的发现服务,但浏览和精炼结果的深度具有相当大的局限性。传统的机构知识库数据结构是基于MARC的一维线性组织模式。MARC的优势在于结构化程度高,通过代码化的字段和子字段置标书目的内容特征和外在特征。缺点在于描述语言的通用性和语义性差,只有元数据描述,缺少从语义到语法结构到模型及著录规范和算法的完整体系。而一维和线性的组织方式,是以某一属性特征作为索引点和检索点,不区分信息对象的实体层次和相互的关联关系,在实际应用中,特别是数字环境下,存在很大的局限性,突出表现在缺少对于信息对象表现形式的多样性、生命周期的变化性、衍生性和复合对象的复杂性的关系描述和基于关系的序化,即语义化程度较低。关联数据的出现提高了资源发现的相关性和便捷性,为机构知识库的发展和优化带来了契机。有关资料表明,截止2010年10月,数字图书馆和科研教育领域发布的关联数据源已达到68个,RDF三
[23]
元组的数量占到关联数据云图总量的8.08%。可见,数字图书馆界在关联数据的创建和发布方面已经取得了初步的研究成果,而在关联数据的集成融合等高层次的技术应用方面也逐步进入了探索和实验阶段。
[24]
2008年,瑞典联合目录LIBRIS全球率先将国家图书馆级书目数据全部发布为关联数据,为大学图书馆、公共图书馆、博物馆以及档案馆提供在线编目服务。LIBRIS使用的词汇表并不仅仅局限于图书馆学领域,而是使用了FOAF(Friend of a Friend)、简单知识组织体系SKOS(Simple Knowledge Organization System)、Bibliontology的混合体,并以RDF实现了部分书目记录的功能需求FRBR(Functional Requirements of Bibliographic Records)算法。同时,为了加强和外部数据源间的关联,LIBRIS还创建了美国国会标题表LCSH(Library of Congress Subject Headings)和维基百科(DBpedia)之间的关联链接。
[25]
2008年11月,欧盟数字图书馆(European)项目在布鲁塞尔正式启动,它包括了来自欧盟27 国的书籍、手稿、音乐、绘画、地图、照片和电影等丰富多彩的信息和资料。它非常重视门户的互操作性,采用了SKOS编码,并引入了语义层,在各聚合对象之间建立语义连接,期望利用关联数据达到语义级别的检索。在同年的12月,英国的哈德斯菲尔德大学[26]
迈出了大胆的一步,在开放数据共享许可协议(Open Data Commons License)下共享跨
12
越13年的读者流通数据和数字图书馆读者荐购数据,为其他图书馆提供关于读者的借阅情况,如谁在何时借阅了什么等匿名信息集的下载。跨馆对比这类数据,可以发现不同区域的读者借阅趋势、评估馆藏的发展战略等。这种以数据优先的策略,重点关注了数据的效率和可用性,而不是数据本身的表达形式,为关联数据的应用提供了方向。
[27]
2009年5月,美国国会图书馆以SKOS格式将LCSH全部关联数据化并提供词表的开放下载,成为关联数据应用的成功范例。同年9月,联网计算机图书馆中心OCLC(Online Computer
[28]
Library Center)利用SRU服务为虚拟国际规范文档VIFA(Virtual International Authority File)项目提供关联数据,不仅很大的提高了机构知识库规范文档的利用率,而且还能降低服务器的负载量。此后,德国国家图书馆、英国国家图书馆、匈牙利国家图书馆、法国国家图书馆等都先后宣布,将其部分图书馆目录、叙词表、名称及主题规范数据发布为关联数据,将关联数据在图书馆机构知识库知识组织体系中的应用推向了高潮。
通过分析上述的案例,可以看出目前关联数据在数字图书馆领域的应用主要有以下几个方面:
(1)利用关联数据扩展数字图书馆知识库的资源规模。对数字图书馆知识库来说,资源就是它的生命和血液,资源的规模越大,数据量越多,相应就越能够提供丰富的服务。在关联数据云图中,有许多关联资源可以作为图书馆的资源库和知识库,可以利用云图中的关联开放数据进行图书馆资源的扩展和关联,为用户提供更丰富、更有意义的检索结果。 (2)利用关联数据增强图书馆和其他机构团体间的资源共享和知识重组。除了利用现有的关联数据,图书馆还可以自己的特色数据发布成关联数据,增加用户返回图书馆的途径。关联数据是结构化的,依靠提供相关资源的链接而丰富现有的知识库资源,但同时这种链接不仅是图书馆内部资源自身的上下位关系的显式链接,而且还可以是图书馆资源和非馆藏资源间的外部链接,有助于知识库在更大范围内提供开放扩展服务。如此的“一来一往”,最终会为图书馆和教育机构、科研团体以及其他机构团体之间提供更强的跨机构合作和共享数据的能力,也为第三方用户如机器用户等提供对底层数据更便捷的存取和进行知识重组,从根本上增强了图书馆自身的社会价值和社会凝聚力。
(3)利用关联数据构建数字图书馆综合科技资源的语义化描述组织的本体框架。目前,在数字图书馆领域,支持信息资源语义化表示、存储、索引、检索、查询和共享利用的方法与技术体系正在逐步完善和成型。而支持规模化信息资源的自动语义标注方法,无论是基于传统的信息抽取方法,或基于自然语言分析处理或理解的方法,还是基于领域知识本体的方法,都还存在工程化、实用化方面的局限。关联数据作为一种支持语义互操作的技术体系,通过采用描述性语言RDF以及以数据为中心的、可定制的XML标记语言和技术来支持基于多维情境关系如关联、层次、约束、等价等的构建,支持对Web文档和内容进行更加丰富和富有意义的机器可理解的描述。这些机器可处理的描述反过来允许设计更加智能的软件系统,对基于Web的信息进行自动分析和利用。其中,本体被认为是支撑语义互操作和集成数据和过程的关键技术。不论是一个组织、用户群组或用户,都面临所处信息环境包含的多种内外部信息系统,这些系统普遍存在的不同的主题层级结构、元数据模式、以及不同的元数据查询式构造语法等,都会为检索者带来相当大的困扰。因此,利用关联数据构建基于本体的语义化描述组织框架,最终建立语义驱动用户知识环境配置引擎服务的基础架构成为提供和满足新的集成应用场景和需求的主流解决方案。
3利用关联数据实现机构知识库的语义扩展方法研究 3.1机构知识库语义扩展的需求和关键技术定位
根据上述研究,再结合目前中国科学院机构知识库平台建设的实际情况,关联数据在机
13
构知识库方面应用的关键技术主要有以下几点: (1)可利用关联数据技术将机构知识库中的实体关系发布为能够进行语义揭示的关联数据格式。CASIR是围绕研究社群(即研究部门)来进行知识组织的,每个研究社群又可分为多个子社群(即子部门)和专题,其数量不受限制。专题可以根据论题、信息类型(如:研究手稿、数据库等)或其他任一有利于数字化条目组织的索引方法来进行组织。每个专题的内容类型又包含着中国科学院各个研究所存缴的会议论文、期刊论文、学位论文、专著、专利、演示报告等多种格式数据集,从长远的发展角度来考虑,为满足科研用户尤其是机器用户快速、明确地找到所需资源并获取其语义,机构知识库必须能够提供高质量的语义化访问服务,而不仅仅是普通HTML网页的信息描述。例如,机构知识库可以为不同的研究社群之间,以及同一个研究社群的不同子社群之间,提供动态的链接,描述其归属关系;同一个作者的不同科研成果之间,同一个科研成果的合作者之间,同一个资源所属学科主题的上下位关系之间,等都可以通过关联数据来关联扩展到这些资源的上下文信息,从而不仅能够让用户更快地获得更多更全面的相关知识,同时还可以增加用户回到机构知识库服务的途径,而且也方便外部关联数据源能够主动地关联到机构知识库。
(2)可利用关联数据技术将机构知识库中数字对象间的知识组织体系扩展到已有的关联词表。关联数据构建的基本原则之一就是尽可能地复用已有的关联词表或本体模型。一般我们最常用在数字图书馆领域的就是DC、FOAF、SKOS、LCSH,它们均已经实现了全面的关联数据化,搭建了知识组织系统(如分类表、词表)到关联数据之间的桥梁,意义深远。CASIR自身的知识组织体系虽然不是标准的关联数据组织模式,但是它在建立最初已复用了DC元数据的部分词表规范。因而,进一步的工作便显得十分可行,只需要为已有的类以及属性选择最合适的关联词表源,并明确建立两者之间的词汇映射关系,最终使得机构知识库能够在关联词表的帮助下支持基于SPARQL模式的语义查询和推理。 (3)可利用关联数据技术将机构知识库中的实体数据进行语义标注,并扩展到外部关联数据源。关联数据可以为机构知识库扩展资源信息提供结构化的数据基础,提供多个分布式异构数据源整合的关联访问,将来自不同数据源的同一个实体数据进行整合,返回给用户关于该实体的尽可能多的相关信息的统一视图,从而为用户提供资源发现和访问服务的新的视角。简单来说,就是关联数据允许机构知识库关联到更广泛的信息资源,并不局限于资源本身的信息,可以扩充科研人员、所属机构、科研成果以及其所属学科主题等其他信息到其他任何一个存在该信息描述的数据源。
以上三点关键技术形成了本文利用关联数据实现机构知识库的语义扩展的核心方法。
3.2应解决的关键问题和解决方案
(1)机构知识库实体对象的识别和实体关系的抽取。机构知识库中的实体对象很多,关系也很复杂。对同一实体对象和关系的识别和抽取是一个关键问题。在现实中,不同的关联数据源对同一个实体,如人名,地名等,采用了不同的URI来标识,会导致他们所标示对象的标签和实质的内容并不是完全匹配的。机构知识库为了解决这一个问题,设计了知识资产作者及作者排序确认程序,目的是为了借助于人工的甄别,去实现作者(人名)和对应作品(期刊文献、会议论文、研究报告等)的一一对应关系。该程序会在作者向机构知识库所提交的条目内容被接受和保存,并分配唯一的URI标示符后,自动向作者的邮箱发一封认领邮件,由作者本人来确认是否是属于自己的文献以及选择作者的排序。这种做法虽然效率可能会比较低,认领周期会有点长,但是对于目前的研究层次而言,是十分有效和且合理可行的,而且很大程度地提高了实体对象识别的准确率。与此同时,机构知识库还有自己的别名管理程序,可以为同一个人名实体添加多个形式的别名,解决了人名实体多样化的识别问题。有了前期的预处理工作,抽取机构知识库中自身的实体对象和关系可以按照机构知识库的元数
14
据描述字段以及关系类型进行解析和拆分。
(2)机构知识库关联数据源的选择和不同词表间的映射。机构知识库中的数据主要是期刊论文、会议论文、学术论文、专利、专著、研究报告等科研文献,要将机构知识库中的元数据扩展到外部的关联数据源,选择合适的关联数据源十分重要。目前web上得关联数据源有很多(见表3),但基本都是综合性的社会公共性质的数据集,相对而言能够适合于像机构知识库这样主要应用科研领域的数据进行关联又比较少。而不同的关联数据来源可能采用不同的关联词表,为了最大化的最有效的语义化机构知识库的元数据,从而为用户提供整合的清晰的数据视图,需要将不同的术语转换成统一的目标模式。转换工作主要依据词表将数据映射成本地的数据模式,另外还需要依据人工产生或者经过数据挖掘得到的映射规则进行转换。通过对关联数据源和关联词表的比较分析,加上对机构知识库核心元数据框架体系的了解,本项目主要选择DBpedia和DBLP作为机构知识库的关联数据源,DC、FOAF、SKOS、ISWC、VCARD作为其扩展的关联词表,具体会在实验设计模块做出详细说明。
表3 几种主要的关联数据源
数据源 DBpedia DBLP Freebase WordNet Flickr YAGO DrugBank MusicBranz GeoNames Revyu Book Mashup New York Times World Factbook
描述
基于Wikipedia抽取结构化数据并转换为关联数据格式进行发布和共享 以XML格式存储计算机领域期刊文献和会议论文的元数据信息 遵循知识共享CC(Creative Commons)协议,元数据严格结构化 包含了20多万个基于认知语言学方面词汇的英语词表集
含有超过40亿的图片数据,并提供图片的分类、存储、检索等功能 基于Wikipedia和WordNet的语义知识库,约含有1700多万个实体 含有约4800种药物元数据信息的生物化学资源集 由个人用户负责添加和管理的音乐元数据集合
包含超过1000万个地名和550万个地理别名的地理信息数据集 允许用户自由标注实体和投票打分的数据集 提供了书籍的相关信息,包含了大约7000个链接 提供了NYT标题词和DBpedia概念之间的关联链接 包含了200个国家信息的数据集
(3)机构知识库关联数据的访问和查询。查询关联数据和语义web需要有一种能够将RDF作为基本语法的语言。基于这一点以及纯RDF的角度来看,查询基于RDF的语言并不需要特殊
[29]
的过程或语言特征。目前主要有三种查询语言:SPARQL(SPARQL Protocol and RDF Query Language)、RDQL(RDF Data Query Language)和SeRQL(Sesame RDF Query Language)。其中,SPARQL即是一门查询语言又是一种协议,它是SPARQL协议与RDF查询语言的递归缩写形式,是W3C的推荐标准,已经得到了广泛的支持和应用,并且有大量可用的公共端点。如前文所说的DBpedia的查询端点。本项目同样选择SPARQL作为机构知识库关联数据服务端的查询语言。简单来说,查询一般有两个主要组成部分:SELECT子句和WHERE子句。SELECT子句用于确定查询中返回哪些变量和这些变量的值。而WHERE子句定义了所有匹配机构知识库中RDF库的数据的图模式(graph pattern)。默认情况下,该查询会返回一个包含结果集的HTML表,该结果集会将一个变量集和一个RDF术语集映射起来提供给用户。同时还提供了将结果集定制为XML、XML+XSLT、JSON多种格式的web服务。
(4)机构知识库关联数据质量的评估和保证。随着关联数据的增多和更新的需求,关联数据源中的数据可能会被修改、删除或者移位,有时对应的链接也会随之改变,这就会造成已有关联数据的链接失效和出现错误。RDF链接是关联数据的根本,因而链接的准确性和有效性成为了制约和评估关联数据质量的决定性因素。机构知识库中的关联数据链接主要有两种,一种是机构知识库内部实体元数据之间关联关系的链接数据,一种是和外部词表或关联
15
前缀,等效于本体的命名空间。具体实现时,主要通过调用D2RQ组件Java类的
generate_mapping方法:
generate-mapping -u root -p ****
-d com.mysql.jdbc.driver -o iswc.n3
jdbc:mysql://localhost:3306/iswc
参数说明:-u表示数据库用户名,-p是数据库登录密码,-d是数据库驱动类名称,不同的数据库驱动格式不同。-o是D2RQ输出的映射文件名称,后缀指定为n3。最后一个参数设置了所映射的数据库的路径和名称。
(2)基于CASIR核心实体类的RDF语义标注,以会议论文实体(Paper)为例,选取部分代表性的代码:
# Table papers
map:papers a d2rq:ClassMap;
d2rq:dataStorage map:database;
d2rq:uriPattern \d2rq:class iswc:InProceedings; .
d2rq:belongsToClassMap map:papers; d2rq:property dc:title; d2rq:property rdfs:label; d2rq:column \d2rq:lang \.
d2rq:belongsToClassMap map:papers; d2rq:property dc:identifier; d2rq:uriColumn \.
d2rq:class foaf:Document;
map:papers_Title a d2rq:PropertyBridge;
map:papers_URI a d2rq:PropertyBridge;
map:papers_Conference a d2rq:PropertyBridge;
d2rq:belongsToClassMap map:papers; d2rq:property iswc:conference;
d2rq:refersToClassMap map:conferences;
d2rq:join \.
(3)基于CASIR实体关系的RDF关联转换。主要是针对3.1中所述的几种实体关系进行编程转换,部分代码如下:
# n:m table rel_person_paper
map:rel_person_paper a d2rq:PropertyBridge;
d2rq:belongsToClassMap map:papers; d2rq:property dc:creator;
21
d2rq:refersToClassMap map:persons;
d2rq:join \ d2rq:join \ .
# n:m table rel_person_organization
map:rel_person_organization a d2rq:PropertyBridge;
d2rq:belongsToClassMap map:persons; d2rq:property iswc:has_affiliation; d2rq:refersToClassMap map:organizations;
d2rq:join \
d2rq:join \.
(4)将CASIR实体元数据关联到外部数据源的RDF呈现,仍以Paper实体为例。CASIR中的会议论文元数据提供了对作者、论文名称、会议名称、以及ISBN号的准确记录,ISBN作为会议论文的唯一标示符,为我们关联到外部数据源提供了方便。在实例化时,只需要判断两个资源的ISBN是否一致,即可获得该会议论文元数据在DBLP关联数据源中的描述URL,此外也可以根据作者以及对应的机构,获得作者的其他论文资源信息。
# Table papers
map:papers_Seealso a d2rq:PropertyBridge;
d2rq:belongsToClassMap map:papers; d2rq:property rdfs:seealso; d2rq:uriColumn \map:papers_Sameas a d2rq:PropertyBridge;
d2rq:belongsToClassMap map:papers; d2rq:property owl:sameas; d2rq:uriColumn \ .
.
参数简要说明:
①d2rq:uriPattern提供一个URI标识,用来指导生成所实例化实体的真实URI。一般由关系数据库的实体表名和对应的主键组成。
②d2rq:class表示该映射类所对应的实体类,其取值一般来自所应用的OWL 本体或RDFS Schema,也可以根据自己的数据模型定义新class。
③d2rq:PropertyBridge代表OWL本体或ORDFS Schema中类的属性,它具体映射到关系数据库中数据表的某一列。
最终构建的RDF接口可满足如下基本条件:
其一,能够生成并使用一个或多个一致的隐性本体描述的合法RDF; 其二,接口能够接收一个查询或者一个对返回数据的说明; 其三,能够生成可以准确反映机构知识库底层数据源中的实体及相互关系的关联数据集。
5 语义扩展模块的运行和应用测试 5.1基本运行情况
本项目的语义扩展模块是基于java语言和D2RQ开源工具在windows7平台下进行设计
22
和开发,由于java语言的跨平台性,经测试,该模块在windows和Linux系统下皆可正常运行,且性能稳定,运行良好。
在D2RQ的DOS路径下,以#d2r-server iswc.n3的命令行启动D2R Server,然后在浏览器中输入地址:http://210.77.64.53:2020/。可看到已将上述实体元数据扩展为含有语义的关联数据集,并提供三种形式的访问:HTML View、RDF View和SPARQL Endpoint,详细见图9。
图9 CASIR语义扩展模块首页
点击conferences可以看到所有的会议实体,见图10,点击organizations可以看到所有的机构实体,点击papers可以看到全部的会议论文实体,其他同理。
图10 会议实体
以CASIR中的一篇原始会议论文元数据为例,见图11。
23
图11 CASIR中会议元数据描述示例
经过RDF语义标注和关联扩展的同一篇会议元数据如下,见图12。通过对比发现,语义扩展后的论文元数据中的属性和实体数据都是灵活的,可通过众多URI标示获得该论文元数据的合作者、会议、学科主题等具体信息。
图12 语义化的论文元数据
24
(1)示例1,点击图12中
图13 语义化的会议元数据
(2)示例2,点击图12中的
图14 语义化的作者元数据
(3)示例3,点击图14
图15 语义化的机构元数据
(4)示例4,本语义扩展模块还开放了基于SPARQL的语义查询服务端点http://210.77.64.53:2020/snorql/,能够进行基于类和属性的浏览,以及进行基于实体关
25
系的查询,最终以三元组方式提供可视化的查询结果,并可将查询结果定制为XML、XML+XSLT、JSON等多种web服务格式,见图16。
图16 SPARQL查询端点
查询必须遵循标准的SPARQL语法,例如要查询含有指定关键词的资源 “Conference”,可输入以下命令,返回结果见图17。
SELECT DISTINCT ?resource ?value
WHERE { ?resource
ORDER BY ?resource ?value
图17 查询结果示例
5.2用户测试及反馈的意见
目前,语义扩展模块在一定的范围内进行了应用,并邀请了相关人员进行测试,主要测试内容见表6。这些测试用户涵盖了老师、学生和科研人员,基本都具有相关专业学科知识背景,能够本着真实性的基础上对系统提出一定的反馈意见。
26
表6 主要测试内容
姓名 付晶园 苏 兴 申晓康 曹 静 梅利荣 冯 飞 李超群 荆彦铭 姚晓娜
单位
兰州商学院老师 河北金融学院老师 近代物理研究所学生 兰州大学学生 近物物理研究所学生 兰州大学学生
广州点开科技软件公司java程序员 大连莱力柏自控技术公司软件工程师 兰州分馆信息系统部馆员
测试内容 基本功能测试 基本功能测试 HTML浏览访问测试 HTML浏览访问测试 RDF浏览访问测试 RDF浏览访问测试 RDF关联链接测试 SPARQL查询测试 SPARQL查询测试
目前,用户反馈回来的意见和建议主要有以下几个方面: (1)基本功能可用,运行良好,性能稳定。 (2)访问和浏览时界面简洁,使用方便。
(3)可以通过相关标注的标签了解到该资源属性的具体含义。 (3)可以通过点击链接访问到某一资源的上下位信息。
(4)可以通过点击链接访问到某一资源在相关数据源中的描述信息。 (5)总体数据量比较少,希望能够进一步扩充并丰富数据资源。
(6)SPARQL对关联数据检索的灵活性的确比较高,检索结果是可视化的,并可将检索结果定制为XML、XML+XSLT、JSON等格式。 (7)SPARQL查询太难,没有一定的语法知识,很难在短时间内构造到正确的查询语句,建议可以将SPARQL查询作为后台处理,前台封装为普通的SQL查询界面展示给用户。
鉴于用户反馈的建议,项目组除了进一步丰富了数据资源之外,保留了原来的SPARQL查询端点,重做了基于JSP和SQL的RDF的普通用户查询界面,如图18示。用户可以任意输入检索词或者精确的查询ID号并生成相应的RDF格式的查询结果。例如输入“semantic”,得到的RDF文件如图19示。
27
图18 RDF的普通查询界面
图19 RDF格式的返回结果
6结论
根据用户测试和反馈的意见,结合本项目在开发和实施过程中出现的问题,笔者总结出以下几点经验和看法:
(1)从整体上来看,本项目已经完成了项目的预期研究目标和内容,并以实验设计的
28
方式证明了项目所研究的技术和方法的合理性和可应用性。但从实际的应用层次来看,本项目还只是一个初步的实验框架,要想真正地将关联数据技术应用于机构知识库的语义扩展还需要投入更多的时间资源和人力资源,更深入地对相关技术和工具进行实际地应用测试和二次开发。从用户的角度来看,关联数据的最大好处是可以提供多个分布式异构数据源的整合的关联的访问,希望能够做到点击的次数最少,而获得的内容最丰富最详实。而从开发者的角度来考虑,是需要将来自不同数据源的统一对象进行集成,返回关于该对象的所有相关信息的同一对象的统一视图,不仅希望能够充分利用现有数据之间的关联关系,而且时刻根据实际需要实现与Web上得高质量的数据建立新的关联关系。从概念层次上看用户的需求和开发者的做法,好像是统一的,然而在具体的实施中,却往往不尽人意。目前,由于技术上得限制,将已有的数据生成、转换、发布为关联数据并不难,难在于如何组织关联数据、利用关联数据去为提供更符合用户常规使用习惯更为直观的服务方式。本模块虽然提供了基于实体、基于类和属性的可视化浏览方式,但本质上还是需要用户具有一定的学科知识背景才能更好地驾驭,无形中将适用对象和范围限定到了科研人员、教师和学生,使得项目潜在用户的应用范围并不是很广。进一步的研究中可考虑借助solr分面浏览技术以及可视化浏览技术等,提供更加人性化的浏览方式。
(2)权衡项目使用开源工具D2RQ的优点和代价。对项目人员来说,在了解开源软件架构的基础上,使用开源工具可以缩减编程的工作量,降低设计的复杂性,提高项目开发的成功率,从而在有限的时间内更便捷更快速地设计和实现目标模块的原型系统。本项目选择使用D2RQ开源工具的最大优点是只需要做极少的设置和配置调整,就可以自动生成映射文件。通过人工干预对映射文件进行修改和调用,就可以将原有的数据源公开为RDF,提供SPARQL查询端点,并且直接集成了对Jena和Sesame语义web框架的支持,很容易被其他语义web应用程序快速集成和调用。由于动态环境下底层数据经常会发生变化,针对查询进行转换能够反映数据库中得真实数据内容,因而这是能够解决动态性问题的少数几种公开为RDF的方法之一,也是唯一一种能够完整地建立虚拟RDF图的方法,且该虚拟RDF图很容易被访问和装载。然而,使用D2RQ开源工具也会给项目造成一些问题和缺陷。主要有以下几点:
①D2RQ使用的是一种JDK编译生成的配置文件,当RDB模式发生变化时,该文件需要重新映射和修改。事实上关系数据库结构和模式的变化通常是一个重要事件,因此尽管需要重新生成映射文件,但仍然能够为开发者所接受。
②公开的RDF接口几乎是数据库结构的一个精确映像,可能包含面向具体应用程序和工作的信息,如管理元数据的信息。解决的方法之一是将一般管理元数据的信息和数据库中重要实体如论文、作者等相关元数据的信息分开存放,并以外键形式进行关联,在映射的时候屏蔽掉管理元数据的实体类和对象即可。
③SPARQL查询语法难以掌握。正如用户测试反馈回来的意见所述:“SPARQL查询太难,没有一定的语法知识,很难在短时间内构造到正确的查询语句”。对于项目的SPARQL查询端点来说,一般适用于第三方用户如机器用户或其他科研应用程序对其进行调用,并不使用于普通人工用户的查询。对于人工用户来讲,这一般要求用户对底层的关系数据库模式有较为细致的了解,并具备一定的SPARQL语法知识,才能够构造可用的查询语句。然后目前,SPARQL又是查询RDF关联数据图的最有效的方法之一。一些大型的数据集,基本都是利用D2RQ的服务组件D2R Server构造和开放自己的SPARQL查询端点,包括前文所述的DBpedia
[33][34]
的查询端点、DBLP的查询端点、Chris Mungall (Berkeley Drosophila Genome Project)
[35]
为Gene标注本体开放的查询端点等都需要基于SPARQL语法构造相应的查询语句。项目组也试着按照用户测试反馈的建议,将SPARQL语法构造的查询作为后台的处理语句,前台封装为基于SQL的查询界面,但对于返回结果的处理就只能返回静态的RDF格式的数据,在一般不能实现基于三元组的可视化浏览。
29
④D2RQ以及其他很多对关联数据支持的开源工具的最大缺陷在于缺乏对其的支持和发展。D2RQ在操作数据时,会将整个后台数据导入到内存模型中,在数据量大的情况下,可能会出现内存溢出问题,也会使映射文件的加载非常缓慢。目前很多基于关联数据进行语义扩展的项目在从政府基金支持的研究项目过渡到切实可行的商业化产品的过程中都发展缓慢,甚至陷入停滞。其中最大的原因是目前国内围绕语义Web和关联数据项目所开展的业务活动层次仍然很低。尽管如此,但是需求旺盛的用户群体仍然存在,那些作为前沿研究领域的专家和学者们一直在渴望并努力地推动者这些项目的持续发展。这为项目后续研究中改进上述问题,并提出尽可能实际的解决办法奠定了基础。
因此,进一步的研究中可考虑选择一些更合适的开源的软件工具,建立更为完善的安全数据监测机制和更新机制,以保证对语义化研究和应用方法的可持续性,并进一步深入研究机构知识库内部语义关系以及机构知识库内部与外部知识库的关联关系。总体的研究表明,关联数据组织方式灵活,数据格式简单,借助于开源工具能够和目前主流的关系数据源进行交互,并快速地形成一定规模性应用。因而如果能够进一步地合理地利用关联数据,真正将关联数据技术融入现有的用户知识群组配置技术中,它就能够为机构知识库在内容组织、资源组织方式上提供更为丰富的功能支持和语义发现服务,对未来提高机构知识库的服务能力有着重大的意义。同时也为加速国科图实现从基础服务版的机构知识库到语义集成资源版的机构知识库的发展蜕变奠定了基础。
30
参考文献:
[1]Institutional repository[EB/OL].[2011-09-10]. http://en.wikipedia.org/wiki/Institutional_repository. [2] Ranking Web of World universities[EB/OL]. [2011-09-15]. http://www.webometrics.info/about_rank.html. [3]CASIR GRID[EB/OL].[2011-09-15]. http://www.irgrid.ac.cn/.
[4] FOAF-a-Matic[EB/OL].[2011-08-15].http://www.ldodds.com/foaf/foaf-a-matic.html.
[5] FOAFaMaticMark2[EB/OL].[2011-08-15]. http://www.ldodds.com/wordtin/wiki/FMMark2Features. [6] Tabulator[EB/OL].[2011-07-10].http://www.w3.org/2005/ajar/tab. [7] OpenLink Software[EB/OL].[2011-06-20]. http://www.openlinksw.com/. [8]Disco[EB/OL].[2011-08-20]. http://www4.wiwiss.fu-berlin.de/bizer/ng4j/disco/. [9]Data.gov[EB/OL].[2011-11-25]. http://www.data.gov/. [10]GovWild[EB/OL].[2011-12-15].http://govwild.hpi-web.de/.
[11]oreChem[EB/OL].[2011-10-15]. http://www.openarchives.org/oreChem. [12]Bio2RDF[EB/OL].[2011-08-15]. http://bio2rdf.freebase.com/.
[13]LODD[EB/OL].[2011-12-10]. http://www.w3.org/wiki/HCLSIG/LODD.
[14]JISC[EB/OL].[2011-11-15].http://www.jisc.ac.uk/whatwedo/topics/resourcediscovery.aspx. [15] Falcons [EB/OL].[2011-08-15]. http://www.falcons.com/. [16] SWSE[EB/OL].[2011-06-15]. http://swse.deri.org/.
[17] ArnetMiner [EB/OL].[2011-09-24].http://www.arnetminer.org/ [18]Yovisto [EB/OL].[2011-09-15]. http://www.yovisto.com/. [19] Sindice[EB/OL].[2011-09-22]. http://sindice.com/. [20] Swoogle[EB/OL].[2011-08-24].http://swoogle.umbc.edu/. [21] Waston [EB/OL].[2011-07-21].http://www.watson.com/.
[22 ]CLIR[EB/OL].[2011-04-15]. http://www.clir.org/news/pressrelease/11mellonpr2.html.
[23]State of the LOD Cloud [EB/OL].[2011-09-15]. http://www4.wiwiss.fu-berlin.de/lodcloud/state/. [24]LIBRIS[EB/OL].[2011-05-20].http://libris.kb.se/index.jsp?language=en. [25] Europeanna[EB/OL].[2011-04-20].http://www.europeana.eu.
[26]University of Huddersfield[EB/OL].[2011-04-24].http://en.wikipedia.org/wiki/University_of_Huddersfield. [27]library of Congress Home[EB/OL].[2011-04-22].http://www.loc.gov/index.html. [28]About OCLC[EB/OL].[2011-04-24]. http://www.oclc.org/us/en/about/default.htm. [29]Toby Segaran.Progamming the Semantic Web[M].Colin Evans,Jamie Taylor.2010 [30]Handle System[EB/OL].[2011-05-26].http://www.handle.net/.
[31]John Hebeler.Semantic Web Programming[M].Matthew Fisher, Ryan Blace.2009. [32]D2RQ[EB/OL].[2011-10-15]. http://www.w3.org/2001/sw/wiki/D2rq. [33]DBpedia[EB/OL].[2011-11-10]. http://dbpedia.org/sparql/. [34]DBLP[EB/OL].[2011-09-25]. http://dblp.uni-trier.de/.
[35]Gene Ontology[EB/OL].[2012-01-02].http://spade.lbl.gov:2020/sparql.
31
附件: 附件1 iswc.n3
@prefix map:
@prefix casir:
@prefix d2rq:
@prefix skos:
@prefix iswc:
map:database a d2rq:Database;
# Table conferences
map:conferences a d2rq:ClassMap;
d2rq:dataStorage map:database;
d2rq:uriPattern \d2rq:class iswc:Conference; .
d2rq:belongsToClassMap map:conferences; d2rq:property rdfs:label;
d2rq:column \.
d2rq:belongsToClassMap map:conferences; d2rq:property dc:identifier; d2rq:uriColumn \
32
d2rq:jdbcDriver \d2rq:jdbcDSN \d2rq:username \d2rq:password \jdbc:autoReconnect \
jdbc:zeroDateTimeBehavior \.
map:conferences_Name a d2rq:PropertyBridge;
map:conferences_URI a d2rq:PropertyBridge;
.
d2rq:belongsToClassMap map:conferences; d2rq:property dc:date;
d2rq:column \.
d2rq:belongsToClassMap map:conferences; d2rq:property iswc:location; d2rq:column \.
d2rq:belongsToClassMap map:conferences; d2rq:property casir:startDate; d2rq:column \d2rq:datatype xsd:dateTime; .
map:conferences_Date a d2rq:PropertyBridge;
map:conferences_Location a d2rq:PropertyBridge;
map:conferences_Datum a d2rq:PropertyBridge;
# Table organizations
map:organizations a d2rq:ClassMap;
d2rq:dataStorage map:database;
d2rq:uriPattern \d2rq:class iswc:Organization; .
d2rq:belongsToClassMap map:organizations; d2rq:property rdf:type;
map:organizations_Type_U a d2rq:PropertyBridge;
d2rq:uriPattern \ d2rq:condition \
.
d2rq:belongsToClassMap map:organizations; d2rq:property rdf:type;
map:organizations_Type_D a d2rq:PropertyBridge;
d2rq:uriPattern \ d2rq:condition \
.
d2rq:belongsToClassMap map:organizations; d2rq:property rdf:type;
map:organizations_Type_I a d2rq:PropertyBridge;
d2rq:uriPattern \ d2rq:condition \
.
d2rq:belongsToClassMap map:organizations; map:organizations_Name a d2rq:PropertyBridge; d2rq:property rdfs:label;
33
d2rq:column \.
d2rq:belongsToClassMap map:organizations; d2rq:property foaf:homepage;
d2rq:uriColumn \.
map:organizations_Homepage a d2rq:PropertyBridge;
map:addresses_Address a d2rq:PropertyBridge; d2rq:belongsToClassMap map:organizations; d2rq:property vcard:Street;
d2rq:column \ .
map:addresses_Location a d2rq:PropertyBridge;
d2rq:belongsToClassMap map:organizations; d2rq:property vcard:Locality; d2rq:column \.
d2rq:belongsToClassMap map:organizations; d2rq:property vcard:Country; d2rq:column \.
d2rq:belongsToClassMap map:organizations; d2rq:property casir:Belongsto;
d2rq:refersToClassMap map:organizations; d2rq:alias \
d2rq:join \.
map:addresses_Country a d2rq:PropertyBridge;
map:organizations_Belongsto a d2rq:PropertyBridge;
# Table papers
map:papers a d2rq:ClassMap;
d2rq:dataStorage map:database;
d2rq:uriPattern \d2rq:class iswc:InProceedings; .
d2rq:belongsToClassMap map:papers; d2rq:property dc:title; d2rq:property rdfs:label; d2rq:column \d2rq:lang \.
d2rq:class foaf:Document; map:papers_Title a d2rq:PropertyBridge;
map:papers_Abstract a d2rq:PropertyBridge;
34
d2rq:belongsToClassMap map:papers; d2rq:property dcterms:abstract; d2rq:column \.
d2rq:belongsToClassMap map:papers; d2rq:property dc:identifier; d2rq:uriColumn \.
d2rq:belongsToClassMap map:papers; d2rq:property dc:date; d2rq:datatype xsd:gYear; .
d2rq:belongsToClassMap map:papers; d2rq:property dc:publisher; d2rq:uriColumn \.
d2rq:belongsToClassMap map:papers; d2rq:property rdfs:seealso; d2rq:uriColumn \.
d2rq:belongsToClassMap map:papers; d2rq:property owl:sameas; d2rq:uriColumn \.
map:papers_URI a d2rq:PropertyBridge;
map:papers_Year a d2rq:PropertyBridge;
d2rq:column \
map:papers_Publish a d2rq:PropertyBridge;
map:papers_Seealso a d2rq:PropertyBridge;
map:papers_Sameas a d2rq:PropertyBridge;
map:papers_Conference a d2rq:PropertyBridge;
d2rq:belongsToClassMap map:papers; d2rq:property iswc:conference;
d2rq:refersToClassMap map:conferences;
d2rq:join \.
# Table rel_paper_topic
map:rel_paper_topic1 a d2rq:PropertyBridge;
d2rq:belongsToClassMap map:papers; d2rq:property skos:primarySubject; d2rq:property skos:subject; d2rq:refersToClassMap map:topics;
d2rq:condition \
35
正在阅读:
关联数据发布技术和工具07-04
旅游标准化试点评估汇报材料11-02
第六章 输入输出06-30
西安旅游攻略 - 图文07-11
2010年中考数学试题汇编之23-相似05-13
RHEL 6.4下安装Oracle 11.2.0.3 - 图文07-05
交通工程及沿线设施施工方案05-20
认识常见岩石04-14
- 多层物业服务方案
- (审判实务)习惯法与少数民族地区民间纠纷解决问题(孙 潋)
- 人教版新课标六年级下册语文全册教案
- 词语打卡
- photoshop实习报告
- 钢结构设计原理综合测试2
- 2014年期末练习题
- 高中数学中的逆向思维解题方法探讨
- 名师原创 全国通用2014-2015学年高二寒假作业 政治(一)Word版
- 北航《建筑结构检测鉴定与加固》在线作业三
- XX县卫生监督所工程建设项目可行性研究报告
- 小学四年级观察作文经典评语
- 浅谈110KV变电站电气一次设计-程泉焱(1)
- 安全员考试题库
- 国家电网公司变电运维管理规定(试行)
- 义务教育课程标准稿征求意见提纲
- 教学秘书面试技巧
- 钢结构工程施工组织设计
- 水利工程概论论文
- 09届九年级数学第四次模拟试卷
- 数据发布
- 关联
- 工具
- 技术
- 推荐精品语文长春版小学三年级下册《切错的苹果》教学反思
- 学生信息管理系统论文 最终版 - 图文
- 交叉口延误调查报告
- 护士节群口快板台词范文
- 国家二级心理咨询师答辩论文 - 考试焦虑案例
- 城市与城市化练习
- 浙江省嘉兴市2019届高三上学期基础测试政治试题 Word版含答案
- 招投标课程设计实验报告
- 圆的复习教案(全面经典)
- 2014年黑龙江公务员考试行测资料分析模拟试题(24)
- 《安全伴我行》教学设计
- 2014年福建公务员考试行测资料分析模拟试题
- 甲级单位编制无尘衣项目可行性报告(立项可研+贷款+用地+2013案
- 《东南亚》学案 - 图文
- 1.进制的转换与信息的编码知识点
- MDU-01G说明书
- 中考综合复习8题
- 一日三问
- 王红霞机械原理进程表T15-5 - 图文
- 北京交通大学2016年博士研究生招生专业目录