面向Web3_0的分众分类研究_核心
更新时间:2023-05-31 11:12:01 阅读量: 实用文档 文档下载
公益组织相关
© 1994-2010 China Academic Journal Electronic Publishing House. All rights reserved.
<<信息技术
?L I BRARY AND I N FORM A TI ON SERV ICE ?
面向W eb3.0的分众分类研究
3
熊回香 王学东
华中师范大学信息管理系 武汉430079
〔摘要〕在全面分析Web3.0及分众分类的基本特征的基础上,针对Web3.0的的核心理念和目前分众分类存在的局限性,从微内容的自由整合与过滤、微内容的标准化与结构化、标注的规范控制、标签的基本属性、标签分类与聚类、标签间的关联、标签与本体的结合等方面探讨面向Web3.0的分众分类未来研究方向,最终实现分众分类体系的优化。〔关键词〕W eb3.0 分众分类 标签〔分类号〕TP393 G254
Research on Folksono m y O r i en ted to W eb3.0Xi ong Huixiang W ang Xuedong
Depart m ent of I m for mati on Management,Central China Nor mal University ,W uhan Hubei 430079
〔Abstract 〕Based on r oundly analysing the basic characteristic ofW eb3.0and folks onomy,ai m ing at the core idea ofW eb3.0the li m 2
itati on of f olks onomy,the poper exp l ores future devel opment directi on of f olks onomy which oriented t o W eb3.0fr om several as pects,such as free integrati on and filtrati on of m icr ocontent,standardizati on and structurizati on of m icr ocontent,criteri on contr ol of tagging,basic attributes of tag,classificati on and clustering of tag,the relati onshi p bet w een tags,combinati on of tag and ont ol ogy etc,and reali 2zes op ti m izati on of folks onomy syste m finally .
〔Keywords 〕W eb3.0 f olks onomy tag
3本文系2009年华中师范大学科研项目“面向W eb3.0的分众分类研究”
(项目编号:CC UN09A04018)研究成果之一。 收稿日期:2009-07-30 修回日期:2009-11-20 本文起止页码:104,107 本文责任编辑:徐 健
随着互联网技术的迅猛发展,Web2.0以应用的开放性、信息传播的交互性、读写并存的表达方式、社会化的联合方式和便捷化的体验方式,使得越来越多的网民参与到互联网信息的创造及发布中。然而,随着信息发布量的快速增长,由此衍生的信息杂乱无章、信息的纯净度和可信度大大降低、搜索引擎精准度下降等问题相继出现在互联网用户面前,网民越来越期待及时准确地获得切合自身需求的信息和知识,以及便捷的互动交流和信息的协同共享。面对这一问题,网络模式急需更新换代,能够为用户提供一种更加高效、精确和个性化的互联网平台的Web3.0模式成为首选的解决方案。
1 W eb3.0及其特征
W eb3.0是新一代互联网应用的统称,它是建立在
W eb2.0的基础上,包含了W eb2.0的所有特点,但同
时为了让人们更好地利用网络资源,W eb3.0提供了一种方便管理、方便查找信息资料,能够自己控制一切的全新的服务:网站内的信息可以直接和其他网站相关
信息进行交互
[1]
,能够对多家网站的信息进行整合使
用,并能根据用户需求,智能化处理互联网海量信息的整合,最终聚合用户个性化的需求,同时实现真正意义上的互联互通。总之,相对于W eb1.0的“浏览和下载”、W eb2.0的“参与、展示和互动”,W eb3.0的核心理念是“个性、精准和智能”。其主要特征表现如下:111 个性化信息聚合
Web3.0最大的特点在于信息的聚合以及提供个性化的信息服务,真正的Web3.0时代不仅仅是按照用户需求提供综合化服务,创建综合化服务平台,更关键的是,把散布在互联网上的各种信息点以及用户的需求点聚合和对接起来,提供基于用户偏好的个性化聚合服务。112 信息检索的高精准度
W eb3.0在对于UGC (用户生产内容)筛选性过滤的基础上同时引入偏好信息处理与个性化引擎技术,对用户的行为特征进行分析,既寻找可信度高的UGC 发布源,同时对互联网用户的搜索习惯进行整理、挖掘,得出最佳的设计方案,帮助互联网用户快速、准确地搜索到自己想要感兴趣的信息内容,避免了大量信
401
公益组织相关
© 1994-2010 China Academic Journal Electronic Publishing House. All rights reserved. >>
第54卷第3期 2010年2月
息带来的搜索疲劳[2]。
113 搜索引擎的智能化
W eb3.0时代的网络是智能网络,这是一个以整个互联网为基础,聚合了所有知识的智能平台[1]。在这样的平台上,用户可用自然语言表达自己的查询意图,搜索引擎能够对查询进行解析,提取相关概念,组合查询表达式,从而返回准确的结果;甚至,用户可以提出完整的问题,通过搜索获得一些问题的解决方案。114 多种终端平台、跨网站和跨语言信息交互
W eb3.0不仅能够实现不同网站间的信息交互,而且还能实现不同终端的兼容。通过互联网与通信的融合,用户可以用所有智能终端(固定电话、移动电话、PC、I PT V以及其他智能终端)轻松享受看得见、听得到、用得好、即时交互的信息服务[3]。另外,W eb3.0的智能翻译引擎突破了国家、语言的限制,使用户用自己的母语可以与全世界所有人进行交流[4],实现了更大范围内的信息交流与共享。
2 分众分类及其特征
分众分类(Folks onomy)是随着W eb2.0而产生的新型网络信息分类法,也叫大众分类、社会分类、自由分类等,它就是由网络信息用户自发地为某类信息定义一组标签(Tag)进行描述,并最终根据标签被使用的频次选用高频标签作为该类信息类名的一种为网络信息分类的方法。其实质就是以词为类,但其类目却是平面的、非等级的[5],它是用户用标签对感兴趣的资料进行分类,并与他人共享标签的过程和结果。
2.1 分众分类的优势
与传统网络信息分类方法相比,分众分类最大的不同之处在于,它并不采用严格的分类标准,其分类全部由用户直接提交,分类的形成过程完全是自发的。分众分类的主要机制基于“开放性元数据标准”和“自然语言社群聚类”[6]。其优势主要表现在:首先,分众分类的标签形成过程充分体现了其自由性,任何用户都可以自由选择自然语言语词来对感兴趣的资源进行标注,从而可以从多个维度来揭示信息内容[7];其次,分众分类具备实时性与适应性,用户可以随时对其阅读或创建的内容和主题创建标签,并立即保存下来,并被允许即时快速的进行标签用语的修改[8];第三,分众分类为用户提供了共享标签的功能,任何人对内容进行标注后,他人可立刻看到这些标签,也可以点击这些标签,进而看到更多使用这个标签的信息内容,或是与此相近的内容[9]。
2.2 分众分类的局限
作为使用非控词汇的分众分类目前还存在一定的局限性,具体表现如下:
21211 标签的多样性 由于用户认知程度不同,对同一事物的揭示程度也存在很大的差异,导致不同用户在标注同一信息时使用了不同的标签,但是系统却无法创建这些标签之间的联系。标签的多样性极大的影响系统的检全率。
21212 标签的模糊性 分众分类是一种基于标签语法层次的简单聚合分类,因此,同一标签可能映射出不同语义的资源,而系统却不能识别出各个语义的不同。标签的模糊性使用户不得不花更多的时间和精力找到与检索标签相关的记录,因而影响到系统的检准率。21213 标签的扁平化组织 分众分类的组织方式与传统的等级体系分类法组织方式不同,它是扁平化的,没有等级层次的划分。因此,系统无法识别各个标签之间的等级层次联系。一方面,这种由于标签缺乏等级控制造成的信息分散也必然影响了信息的检全率;另一方面,类目的平面非等级显示同样会隐藏一些有价值的信息。同时,信息越多利用标签直接找到相关信息就越困难。
21214 系统间的交互性很低 很多网络系统都具有标注资源和分享标签的能力,但是目前各个分众分类系统在语义表达和格式规范上并不一致,这不仅阻碍了各个系统之间的信息交互和代理软件的自动化处理,同时也引发了一系列检索方面的问题。另外,受语言、文化背景等因素的影响,跨国界、跨文化的分众分类系统之间的交互性更低[10]。
21215 标签间语义关系缺乏 分众分类是以高频标签作为类目的一种信息分类方法,其分类结构是平面的,标签间是平等关系,缺乏对标签间的层次体系关系、属性关系和其他的复杂语义关系的描述,而标签间语义关系的缺乏不仅影响到检索的精准度,更重要的是对智能化搜索带来诸多障碍。
3 W eb3.0对分众分类的需求
W eb3.0的基础是W eb2.0,因而,分众分类也是W eb3.0的一种主要的信息组织方式。但是目前分众分类所具有的上述局限性显然阻碍了W eb3.0的核心理念———“精准、个性和智能”的真正实现,W eb3.0的发展需求决定了分众分类的发展方向,因而,未来的分
501
公益组织相关
© 1994-2010 China Academic Journal Electronic Publishing House. All rights reserved. <<信息技术
?L I BRARY AND I N FORM A TI ON SERV ICE ?众分类还需要在以下几个方面进一步拓展。
3.1 微内容的自由整合与过滤研究
微内容是W eb3.0的基本信息单元,由于W eb3.0同样具有草根性,其内容良莠不齐,有价值的专业分析讨论与各种杂谈闲聊掺杂在一起,因而首先需要对微内容进行筛选性的过滤研究。这部分的研究主要包括:研究分析用户的行为特征,寻找可信度高的微内容发布源;对微内容的价值进行判定,并按价值量的高低作不同处理;对垃圾信息进行有效过滤等等;其次,研究如何应用Mashup 技术对用户生成的微内容进行整合,如何利用ONT O /RSS 基础聚合技术对微内容进行有效聚合,从而使信息的特征性更加明显,为实现W eb3.0的“个性化”打下基础。3.2 微内容的标准化与结构化研究 要实现W eb3.0的跨平台、跨社区、跨语言的信息共享,需要对微内容进行标准化与结构化研究,提出一个通用的数据标准。这方面的研究主要包括微内容的拆分标准、属性选择、结构化表征、数据逻辑结构标准以及数据的存储结构标准等,其目的是使微信息之间实现互动,让W eb 完全可编程,从而满足复杂程序的需求,为信息在不同的应用平台之间的整合和传播提供支撑。目前,有关微内容的标准化和结构化的研究则仅限于企业网站的构建,如红门资讯在微内容的拆分、,其推出的公用信息平台已经实现了厂家信息、商家信息、品牌信息、文章信息等160多类信息平台间的自由互动[11]。但目前整个I T 行业中并没有一套完善的有关微内容的拆分、属性选择、结构化表示等方面的标准,这对实现整个互联网信息的无缝连接带来障碍。3.3 标注的规范控制研究 W eb3.0核心理念之一是“精准”,而因为网络用户标注行为缺乏控制,导致标签的多样性、模糊性和随意性等缺点,进而影响到检索的精准度,因而需要对用户的标注行为进行规范性控制。主要研究包括:如何利用受控词表等对同义词、近义词、专有名词等进行限定,并构建规范的标引词库推荐用户使用;如何确定标签的含义以及标签间的关联,以帮助用户在创建标签时进行选择;如何利用后控手段对不断产生的大量标签进行筛选、融合和规范化处理,并将其与核心标签关联等等。其目的避免网络用户生产出各种错误的、无意义的、不规则的标签,从而提高标签系统的准确性、兼容性和开放性,以实现标签集合的移植与共享,促进不同网络信息系统对信息资源的协同组织。目前,国
内外学者都对标签的规范控制研究显示出极大的兴趣,纷纷提出了多种规范标注行为,从而提高标签质量的解决措施,如有些网站在用户标注时提供一些规范词供用户选择,或对用户的标注结果进行词义转换等,但总的来说研究的系统性不够,其深度和广度都有待加深与拓宽[12],从而提高检索的“精准度”。3.4 标签的基本属性研究 标签是分众分类形成和使用的基础,也是分众分类类目体系的基本构成单元。标签指代并标示W eb 3.0环境中的各种微内容,通过查找标签能够检索到关联的微内容。因而,标签本身的相关属性决着信息检索的质量和效率,所以,需要对标签的特征、标签的价值判定(包括垃圾标签的处理)、标签使用量的分布规
律、标签的赋予权、标签的翻译、标签库的构建等展开进一步的研究;同时,因为目前的标签比较侧重于横向关系的表达,而专业性、学术性信息的表达则需要纵向和横向两个方面的参照系,因而,如何加强纵向关系的表达,仍然有待于进一步研究。目前,对标签的特征、标签价值判定的相关研究比较多,而对标签使用量的分布规律、标签的赋予权、标签的翻译、标签库的构建等方面的研究相对较少。
3.5 传统分类法与大众分类法的融合研究 分众分类是由网络用户的自发标引行为产生,尽管这在一定程度上体现了用户对知识分类的共性,但由于不同使用目的对信息的类分会使得相同的信息被划分在不同的类别中。这种平面性的分类体系,既无法准确地表达出相关标签的层次,也难揭示出信息之间复杂的关系;另外,受大众浅层信息需求的误导,很多有价值的信息也容易被淹没。因而,分众分类的质量无法满足Web3.0检索精准度的需求。而传统分类法特别是文献分类法历史悠久,在一定程度上体现了知识分类的科学性。为此,应该将分众分类与传统分类法进行融合,以提高信息分类的质量和效率,如可先对选定范围内全部信息划分大类的基础上允许网络用户再进行知识细分。把众多的标签先按人为大类存放,既增强了标引一致性,又降低了平面非等级结构的标签所带来的检索难度
[13]。
3.6 标签的聚类研究
由于分众分类允许用户使用不同的标签来标记相似的资源,但并不了解这些标签之间的关系,因而其内容检索机制受到严重的阻碍。为克服这一局限,有必要针对标签的统计学规律、标签间的共现分析、层次分析、标签与特定人和物的相关度、标签间的相似度比较等问题进行聚类分析,其目的是寻找相关标签群,从而601
公益组织相关
© 1994-2010 China Academic Journal Electronic Publishing House. All rights reserved. >>
第54卷第3期 2010年2月
形成立体的分类体系,并在此基础上展开标签关系库的构建研究。显然,这部分的研究有助于实现W eb3.0的“精准”和“个性化信息聚合”。
3.7 标签间的关联研究
W eb3.0的特征之一是要让用户跨越不同的应用平台,并共享不同社区的信息资源,而这种信息的共享除了需要相关内容的标准化、结构化和规范化研究外,更重要的是通过标签的方式进行相互链接,现有的标签只能做到对站内的关键词进行关联,不同网站之间站信息没有形成真正的网络和关联,往往存在信息“孤岛”,常常要借助其他的搜索引擎,因而未来的研究应该着重于标签间关联的深化研究。一方面,研究同一网站中同一文本和不同文本间的所有标签之间的自动链接技术;另一方面,研究不同网站间标签的关联,从而在更大范围、更高层次上建立起词间关系网络,为实现W eb3.0的“跨平台”信息交互打下基础。
3.8 标签与本体的结合研究
本体是在语义网环境下为解决语义歧义、实现信息智能处理而提出的一种形式化描述的、共享的概念认知模型,它是对某一领域知识的规范化描述,不仅提供了概念明确的定义,而且揭示了概念间丰富的语义关系[14],使知识能够在人与人之间、人和系统之间以及各种异构系统之间进行广泛的共享和交流。显然,本体所具备的特性正好弥补了分众分类的许多不足,因而,需要充分挖掘标签间的语义关系,将标签与本体进行结合研究。具体研究包括:分析分众分类中用户、网络资源和标签三者之间的同现关系,对分众分类中的各种标签进行语义分析,研究标签之间的主题相关性,并给出这些标签间相互关系的明确定义,同时探讨如何基于标签的语义关系构建被标注对象之间的联系,并在标签中建立起概念层次,构建大众标注中各类标签词的本体,从而构成语义Web的基础,真正实现Web3.0的“智能化”。目前,这方面的研究多集中在标签语义的提取、标签本体的构建等方面,并推出了多种语义标注平台。但是目前在大多数语义标注的过程中仍需要大量人工的辅助,标注平台的可用性、互用性、重用性和扩展性较差,需要进一步提高[15]。
3.9 用户兴趣模型构建研究
W eb3.0时代的最大价值不是提供信息,而是提供基于不同需求的智能过滤,而每一种过滤器都是基于一个用户需求,因而,用户兴趣模型的构建是W eb3.0中“个性化信息聚合”的基础。目前社会化软件中的过滤主要是协作过滤,其向用户推荐信息的依据是基于社群成员共同的兴趣与喜好,未来过滤将是把基于内容的过滤和协作过滤进行融合,它需要跟踪分析和挖掘用户的行为和兴趣,如用户标注和使用标签的习惯、标注的动机、使用标签的频率、相关标签使用的稳定性等等,从中分析用户的偏好,构建用户兴趣模型。
综上所述,分众分类是W eb3.0环境下的主要信息组织方式,因而W eb3.0核心理念的真正实现依赖于分众分类体系的不断完善,而分众分类体系的不断完善,依赖于上述各相关研究的不断突破;依赖于自然语言处理、信息过滤、数据挖掘、语义网、本体等技术的不断发展;依赖于对语言与思维的本质的揭示;同时,在很大程度上还寄希望于人工智能技术的突破。
参考文献:
[1]邢方,张林.W eb3.0技术发展对网络学习的启示.科技信息
(学术研究),2008(16):7-8.
[2]徐璐,曹三省,毕雯婧,等.W eb2.0技术应用及W eb3.0发展趋
势.中国传媒科技,2008(5):50-52.
[3]徐海樯,王玺.W eb3.0引领电子商务新浪潮.互联网天地,2008
(5):66-67.
[4]李宋.W eb3.0,真正的互联互通.互联网周刊,2008(5):70.
[5]王翠英.Folks onomy初探.图书馆学研究,2007(5):85-87.
[6]周荣庭,郑彬(编译).分众分类:网络时代的新型信息分类法.
现代图书情报技术,2006(3):72-75.
[7]余金香.Folks onomy及其国外研究进展.图书情报工作,2007,
51(7):38-40.
[8]陈洁,司莉.社会分类法(Folks onomy)特点及其应用研究.图书
与情报,2008(3):28-29.
[9]毛军.元数据、自由分类法(Folks onomy)和大众的因特网.现代
图书情报技术,2006(2):1-4.
[10]Torben Knerr.Tagging Ont ol ogy-T owards a Common Ont ol ogy f or
Folks onom ies.[2009-03-23].htt p://tagont.googlecode.
com/files/Tag OntPaper.Pdf
[11]吴颜.为什么互联网信息一定要标准化和结构化.[2009-11
-11].htt p://reddoor .
[12]黄国彬.大众标注研究进展.图书情报工作,2008,52(1):13-15.
[13]马然,陈树年.网络信息分类组织的新星──Folks onomy.新世
纪图书馆,2006(4):38-39.
[14]张有志,王军.基于Folks onomy的本体构建探索.图书情报工
作,2008,52(12):122-125.
[15]鞠彦辉,刘闯.国外典型语义标注平台的比较研究.现代情报,
2009(1):215-217.
〔作者简介〕熊回香,女,1966年生,副教授,博士研究生,发表论文20余篇。
王学东,男,1954年生,教授,博士生导师,发表论文数十篇。
701
正在阅读:
面向Web3_0的分众分类研究_核心05-31
EXCEL练习用表格08-26
土地平整方案12-08
2019 IBM IPAT试题 附答案11-22
七层体系通信协议结构图05-14
雷雨天的安全教育06-05
2013年高考语文专题达标测评卷--论述类文本阅读03-25
跨专业考研面试 英语 自我介绍08-06
- 教学能力大赛决赛获奖-教学实施报告-(完整图文版)
- 互联网+数据中心行业分析报告
- 2017上海杨浦区高三一模数学试题及答案
- 招商部差旅接待管理制度(4-25)
- 学生游玩安全注意事项
- 学生信息管理系统(文档模板供参考)
- 叉车门架有限元分析及系统设计
- 2014帮助残疾人志愿者服务情况记录
- 叶绿体中色素的提取和分离实验
- 中国食物成分表2020年最新权威完整改进版
- 推动国土资源领域生态文明建设
- 给水管道冲洗和消毒记录
- 计算机软件专业自我评价
- 高中数学必修1-5知识点归纳
- 2018-2022年中国第五代移动通信技术(5G)产业深度分析及发展前景研究报告发展趋势(目录)
- 生产车间巡查制度
- 2018版中国光热发电行业深度研究报告目录
- (通用)2019年中考数学总复习 第一章 第四节 数的开方与二次根式课件
- 2017_2018学年高中语文第二单元第4课说数课件粤教版
- 上市新药Lumateperone(卢美哌隆)合成检索总结报告
- 面向
- 核心
- 研究
- 分类
- Web
- Lecture15_量子密码学
- 2014浙江公务员面试时事热点:清明,我们该如何祭奠
- 江苏省江阴市第二中学2020-2021学年第一学期高一数学周练二2020.9.19
- 3.13 徐州某医院病房楼施工组织案例_secret
- 小石潭记 字词翻译
- 国信证券基础知识培训
- B2B电子商务系统的设计
- 第八章 Meta分析在循证医学实践中的应用
- 初中七年级语文阅读理解十篇附答案
- 轴对称章节培优习题ABC
- 《工程经济学》第04章在线测试及答案
- NTFS 和 FAT 文件系统的默认簇大小
- 九年级下册数学教学工作计划详细版
- 2014人教版九年级英语Unit2英汉互译
- 5000多个完整施工组织设计方案
- 中国的地形(教学设计)
- 第三章 自由基聚合-2
- 三年级语文蜜蜂3
- 广西上半安全工程师安全生产法劳动合同的职业病危害内容考试题
- VOLVO 常见故障信息中英文对照表