基于内容图像检索中的语义鸿沟问题

更新时间:2023-07-20 04:35:01 阅读量: 实用文档 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

目的探讨目前CBIR系统中广泛存在的"语义鸿沟"问题.方法阐述了该问题的表现及产生的实质;从获取图像语义的角度出发,研究和分析了当前针对这一问题的一些处理方法以及存在的问题,并提出了初步的解决思路.

西北大学学报(自然科学版)

2005年10月,第35卷第5期,Oct.,2005,v01.35,No.5

Joumal0fNortIlwestunive商ty(NaturalscienceEdition)

基于内容图像检索中的“语义鸿沟"问题

温超,耿国华

(西北大学信息科学与技术学院,陕西西安710069)

摘要:目的探讨目前cBIR系统中广泛存在的“语义鸿沟”问题。方法阐述了该问题的表现及

产生的实质;从获取图像语义的角度出发,研究和分析了当前针对这一问题的一些处理方法以及存在的问题,并提出了初步的解决思路。结果现阶段在cBIR中应用多层次的相关反馈方法,能够较好地建立和修正图像低层特征与高层语义间的联系,有助于缩小图像检索过程中的“语义鸿沟”,并达到了一定程度语义检索的目的。结论实现真正意义上的基于语义的图像检索,将是解

决“语义鸿沟”问题的最有效途径。

关键词:语义鸿沟;基于内容的图像检索;图像语义;相关反馈

中图分类号:TP391.41

文献标识码:A文章编号:l000-274X(2005)05-0536_05

20世纪90年代以来,随着人们对图像数据查

询需要的日益增长,为了更有效地检索这些海量的

取算法转到了如何缩小图像检索中的“语义鸿沟”。

图像数据,基于内容的图像检索cBIR(content

basedimage

 

l“语义鸿沟”的产生

cBIR的初衷是让计算机自主地根据图像的内容来衡量图像之间的相似度,以实现图像的检索,其中图像的内容主要指的是图像的语义特征,是人对于图像的理解和认识。然而,这在目前的图像检索系统中还很难达到,主要是由于当前大多数cBIR系统是使用图像视觉特征技术的检索系统,是根据视觉特征来进行图像间的相似性判别,而没有利用

图像的语义信息。

retieval)技术成为图像检索的主流方

向。cBIR的基本思路是:从图像中抽取低层的视觉特征(如颜色、纹理、形状等),然后基于这些特征将用户查询的图像与数据库中的图像进行相似程度衡量,图像的相似性判断建立在视觉特征的相似性上。目前,有许多商业产品和实验原型系统被开发出来,

如QBIC,Photob00k和Virage等。

然而,这些传统的cBIR系统的检索结果往往难以令人满意,这主要是因为计算机自动提取的图像视觉特征与人所理解的图像内容存在巨大的差异。人们在查询和判断图像时总要使用一些高层次概念(如女孩、高兴等),这些高层次概念包含了人对图像所描述的对象、事件以及表达的情感等内容的理解,而这就是图像所具有的语义特征。由于目前计算机视觉及人工智能等技术还不够完善,计算机对图像内容的理解与人对图像内容的理解存在着

巨大客观差距,这种差距造成了当前cBIR系统中

通常人们在判别图像的相似性时并非建立在图像低层视觉特征的相似上,而是建立在对图像所描述的对象或事件的语义理解的基础上。这种理解无法从图像的视觉特征直接获得,它需要使用人们日常生活中积累的大量经验和知识来进行推理和判断。其中,尤其对于一些高层次的抽象概念,如一幅关于节日的图像所表达出的欢乐和喜庆的感觉等,更需要根据人的知识来判断。换言之,人们是依据图像的语义信息来进行图像相似性判别的。

正是由于人对图像相似性的判别依据与计算机对相似性的判别依据之间的不同,造成了人所理解

必然会存在“语义鸿沟(semanticg印)”问题。为了提高cBIR的检索效率与准确性,目前基于内容图像检索领域的研究焦点已从设计复杂的低层特征提

收稿日期:2004讲-26

基金项目:国家自然科学基金资助项目(60271032);陕西省自然科学基金资助项目(2003阳8)

作者简介:温超(1978一),男,陕西三原人,西北大学硕士生,从事信息系统与人工智能以及基于内容检索的研究。

万方数据

目的探讨目前CBIR系统中广泛存在的"语义鸿沟"问题.方法阐述了该问题的表现及产生的实质;从获取图像语义的角度出发,研究和分析了当前针对这一问题的一些处理方法以及存在的问题,并提出了初步的解决思路.

第5期温超等:基于内容图像检索中的“语义鸿沟”问题

537~

的“语义相似”与计算机理解的“视觉相似”之间的“语义鸿沟”的产生。可以说cBIR中的“语义鸿沟”就是:由于计算机获取的图像的视觉信息与用户对图像理解的语义信息的不一致性而导致的低层和高层检索需求间的距离…。因此,想要有效地缩小图像检索中存在的“语义鸿沟”,提高图像检索系统的性能,必须要让计算机能够在低层视觉特征基础上准确地获取图像的语义信息。

图像检索的语义层次

如图1所示,cBIR中可以用来检索的图像内容

可由下至上分为3个层次:特征层、对象层和语义概念层,每一层对应一个图像的语义层次级别。其中特征层主要指的是图像中特定的颜色、形状、纹理等视觉特征及其组合。对象层主要关注的是图像中出现的对象及对象问相互的空间关系;语义概念层是指人对图像内容的概念级反映。后者由低到高又可分为:场景语义、行为语义和情感语义3层。其中场景语义指的是图像中的场景(如沙滩、天空等);行为语义主要指的是图像中对象的行为及活动(如一 场排球比赛);情感语义指的是图像给人带来的主观感受(如高兴、生气等),它们结合在一起形成了一幅图像所要表达的意义。

在实际中,考虑针对哪一层的图像内容进行检索主要取决于用户提出的是什么样的查询请求。与图像内容的层次模型相对应,文献[2]根据用户查询的复杂性将用户的检索需求也分为3个层次。

1)原始查询。即使用图像特征数据如直方图、颜色分布或纹理特征等进行图像的视觉相似性检索。这个层次的检索没有对图像不同的语义进行区分。这样的检索例子如:查找一张上半部分具有蓝色的图片或找出与这张图片相似的图片。目前

cBIR主要就是在这一层次上。

图1

图像内容的层次模型

F19

11lehlerarchlcalmodelofim89e

content

2)逻辑或语义查询。在这一层次的检索中语义起到了作用,该层中的语义主要对应的是图像对

万方数据

象层中的对象及对象的空间关系。要实现这样的检索,必须联合计算机中已有的先验知识来建立图像的视觉特征与用户的查询对象间的联系。这样的查

询如:查找一张艾菲尔铁塔的图片。

3)抽象查询。该层次的检索涉及到图像的抽象特征,即图像的场景、行为和情感语义。要建立图像内容和抽象概念联系,查询者的主观判断和复杂推理是必须考虑的,计算机进行这些判断和推理需运用到机器学习和人丁智能等多方面的技术成果。这个层次的检索需求如:查找一张表达浪漫感觉的

图片或查找苏格兰民间舞蹈的照片。

3个层次最主要的差别体现在第一层与第二层之间,可以看到第一个层次的检索本质上并未利用图像的语义信息,而第二和第=三层次的检索都涉及到对图像的语义内容进行一定的推理。因此,许多学者将第二与第三层次的检索一起称为“语义层次”的图像检索即语义图像检索,并把第一层次和“语义层次”间的差别称为“语义鸿沟”。

cBIR的目标是要最大限度地缩小图像检索中存在的语义鸿沟,使计算机检索图像的能力尽可能地接近或达到人的理解水平,实现真正的语义检索。能否有效地缩小语义鸿沟,关键就在于如何让计算机准确地获取人所理解的图像的内容即图像的语义。只要能够准确地获取图像的语义信息,建立图像特征空间与语义空间的映射关系,cBIR中存在的“语义鸿沟”问题就能得到有效地解决。计算机获取图像语义的过程,实际上就是缩小基于内容检索

中的语义鸿沟的过程。

目前,cBIR中被广泛接受的图像语义的获取机制是建立在一种层次化的抽取模型之上(如图2所示)。它侧重于在不同层次上对图像内容进行分析和提取,通过将底层图像特征映射生成高层图像语义以填补图像检索中的语义鸿沟。另外,近几年针对cBIR中存在的“语义鸿沟”问题,相关反馈方法被用于辅助计算机获取图像语义,这也从另一个方面为该问题的解决提供了帮助。基于此,以下笔者将从获取图像不同层次语义的角度,讨论和分析缩为3类:①基于对象层语义的处理方法;②基于语义概念层语义的处理方法;③相关反馈方法。

传统的cBIR一般是对一整幅图像进行特征提

3缩小“语义鸿沟”的方法

小cBIR中的语义鸿沟的方法。这些方法大体可分

3.1基于对象层语义的处理方法

目的探讨目前CBIR系统中广泛存在的"语义鸿沟"问题.方法阐述了该问题的表现及产生的实质;从获取图像语义的角度出发,研究和分析了当前针对这一问题的一些处理方法以及存在的问题,并提出了初步的解决思路.

西北大学学报(自然科学版)第35卷

取,并将提取的全局特征(如全局颜色直方图等)用于相似度比较。尽管基于全局特征的检索复杂度较低,但检索结果难以令用户满意,很可能出现两幅在外观上完全不同的图像提取的全局特征却是相同或相似的情况,因此全局特征难以准确地表达图像所包含的语义信息。

语义概念』语釜嚣盎蕞涪义

对象层f对专器量嚣等程

特征层

图像特征提取过程

l(提取全局和局部特征

原始幽像

图2图像语义的抽取模型

Fig

The

extractlon

model0fimagesemantic

图像对象层语义的获取建立在局部特征上,通过对对象(目标区域)特征的描述和表示,识别出图像中

 

的显著对象及对象间的空间关系。这也就是说,在对图像进行合理分割的基础上,图像所包含的特定语义可以由分割后的颜色、纹理、形状和空间分布等具有

语义的局部特征来表示,并且这些局部特征可以被用

来识别出图像中每一个目标区域“是什么”,即这些局部特征可以被用于对象(目标区域)的识别。因此,对象层语义获取的关键步骤是:图像分割、对象识别与对象空间关系判别,这一过程在一定程度上符合人们观察事物的顺序,其中图像分割是进行对象识别和空间关系判别的基础。具体地说:图像分割是根据底层特征(如颜色、纹理、位置或图像的全局特征等)来对图像进行区域分割。其主要目标是将图像划分为与其中含有的对象或区域有强相关性的组成部分,因此最好的分割是基于对象的完全分割,I而不是基于区域的部分分割;对象识别是结合先验知识,通过将存储在对象知识库中的对象模型(对象特征的描述和表示)与提取的图像的局部特征相匹配,识别出图像中目标区域所表示的对象;判别对象的空间关系则是建立在对象识别的基础I:,并结合一定的外部知识对对

象间的空间拓扑进行描述。

基于对象层语义处理方法的直观思路就是按照以上这样一个“自底向上”的过程,通过获取图像对象层的语义信息来解决“语义鸿沟”问题。但是由

万方数据

于图像内容的不确定性以及图像分割和对象识别技术的不完善,使得这条思路在实现上还存在相当的难度,因此目前还没有出现使用这类方法获取图像语义的现实系统。然而,结合有关问题领域的专门知识,这类方法可以在特定领域取得成功的应用,比如工程图中对象的自动识别。可以肯定的是:在更广泛领域的图像中准确识别出对象,将始终是图像语义信息获取的一个重要研究方向。

另一方面,要认识到:cBIR并不一定要解决计算机视觉或图像理解问题,它只要能提供在用户定义的感觉上相似的图像,而没有必要对图像进行完全分割和完整的特征描述。因此,在图像检索领域,又提出了一种提取图像有意义区域的方法,不同于传统的试图得到精确目标区域的图像分割方法,它不需要精细考虑对象(目标区域)的边界,只是基于人眼视觉特点,将图像分成几个有意义的区域以为进一步的图像检索打基础。从目前图像分割和对象识别技术看,提取图像有意义区域的方法具有一定的对象检索能力,对于更广泛领域的图像集不失为一种获取图像对象层语义的可行方法。获取图像对象层语义,仅仅是连接或缩小语义鸿沟过程中需要解决的问题的一方面。另一方面有待解决的问题则是:从观看图像的人(即用户)的角度出发,对人看到一幅图像时用于描述图像内容的高层语义概念进行挖掘。这里的高层语义概念指的是图像语义概念层中所包含的场景、行为和情感3层语义,尤其是情感语义,因为对于某些领域(如广

告或艺术)的图像,唤起观者的某种“感觉”可能比

单纯让观者认出其中的对象或场景更重要。

关于图像场景或行为语义的获取,其直观的思路是:在识别出对象及其空间关系的基础上,结合语义概念级的知识提取场景和行为语义。然而,由于图像场景具有多样性(即在不同的光照、距离及角度等情况下,图像的视觉特征是不同的),使得这一思路只能在有限的领域得到实现。在对象识别技术遇到的困难还不能被有效解决的情况下,目前采用了一些其他的方法来获取图像的场景语义。例如:文献[3]中将图像分成16个等大小的子块,通过判断图像中大多数子块的主导方向,实现了对风景图片中城市和乡村的区分;文献[4]利用图像的全局颜色特征,采用基于向量化的Ba”s分类器,成功地区分r风景照片中的室内和室外的场景。这些方法的共同特点是:利用低层视觉特征对图像的场景进行Ⅸ分,从『fl『绕

过了对象识别过程。但是,它们主要还是针对一些场

3.2基于语义概念层语义的处理方法

目的探讨目前CBIR系统中广泛存在的"语义鸿沟"问题.方法阐述了该问题的表现及产生的实质;从获取图像语义的角度出发,研究和分析了当前针对这一问题的一些处理方法以及存在的问题,并提出了初步的解决思路.

第5期温超等:基于内容图像检索中的“语义鸿沟”问题

539

景不太复杂的图像(如风景图像)有比较好的效果,而对于普遍领域的图像仍然不具有通用性。

关于图像的情感语义,可以说它是最高层次的图像语义,相对于前面的几种语义具有更多的主观成分。因此,对图像情感语义的获取,必须是在充分考虑人的感觉、心理、认知和审美等多方面因素的情况下,来提取与图像情感密切相关的视觉特征,并建立特征空间与情感空间的映射。视觉心理学的研究已经表明:颜色是所有图像的视觉特征巾最具有情感色彩的特征,它具有唤醒情感的力量并可以引发人的联想。比如:红色代表着热烈、喜悦和激情,给人激动、兴奋的感觉;绿色则象征着和平与朝气,给人亲切、安静和舒适的感觉。基于此,研究者们对图像的情感语义的处理进行了许多探索性的研究并取得了一定的成果。具有代表性的是文献[5]利用It—ten球模型(图像中颜色所表达的情感语义的理论),建立了颜色特征映射到图像语义的一系列规则,具有良好的理论指导意义。文献[6]综合使用颜色和纹理特征,利用人的主观感觉具有模糊性的特点,给出一种以综合模糊直方图为特征的情感语义的处理方法。目前,针对基于情感语义的处理方 法的研究还属于一个崭新的前沿课题,需要结合相关领域的知识和经验做进一步地探索。

3.3相关反馈方法

以上的方法主要是以计算机为中心,侧重于让计算机在没有人为干预的情况下自动获取图像的语义信息,以填补cBIR中的语义鸿沟。然而,在现有计算机视觉和人工智能技术水平下,完全依靠计算机还无法有效地获取图像的语义。更可行的办法应该是:合理地将人纳入到图像检索系统,使计算机在人的帮助下更好地获取图像语义信息,提高系统检索的性能。目前,这一思路主要是通过在检索系统中运用相关反馈技术来实现。在CBIR系统中引入

相关反馈,可以使系统在与用户的实际交互过程中

进行学习,建立并修正图像高层语义与低层特征问的联系,从而改善检索效果。

相关反馈技术在图像检索中的策略可以分为两类:基于修改查询向量或相似度度量的权重;基于修改图像数据库点的分布。现有的MARs系统…就是采用第一种策略,通过动态调整图像特征向量权重的方法实现相关反馈。修改图像数据库点的分布的基本思路是:首先初始化图像分类,然后通过用户的反馈信息来改变数据库中每幅图像与当前查询的距离,使相似的图像靠近查询图像,不相似图像远离查询图像,最终输出那些符合用户感知的类。这种

万方数据

策略比较好的应用是贝叶斯方法和聚类的方法(具体内容在此不再详述)。上述方法都是图像低层特征基础上的相关反馈应用。然而,由于图像低层的视觉特征是对图像统计信息的描述,它很难完全描述一幅图像,因此仅仅利用低层特征的反馈对于检索的效果不会有质的提高。同时,用户在实际检索时更关心的是图像的语义描述。

为了克服以上单独根据低层特征的相关反馈方法的缺点,必须考虑实现高层语义概念基础上的相关反馈。文献[8]从机器学习的角度,在每次反馈中对用户标记的“正例”和“反例”样本进行学习,用支持向量机构造出最优分类器作为模型实现用户反馈的几何示意,并在特征空间中根据该模型对图像进行判别和检索,从而建立了语义与特征空间的联系。文献[9]中介绍的iFind系统则是一个应用了语义相关反馈的现实系统。它结合了早期根据关键词的图像检索,在系统中建立了一个关键词与图像相关联的语义网络,对图像库中每幅图像都以不同的关键词和权重加以描述,其中一幅图像可能有一个或多个关键词与之对应,且每幅图像对应的关键词及其权重可以根据用户反馈信息加以调整。这样随着足够多的反馈和学习训练之后,系统就会建立起一个相对真实的语义空间到特征空间的映射关系。若能在iFind中结合基于机器学习的方法,进一步改善将语义信息和视觉特征相结合的相关反馈方法,必将大大提高图像检索系统的性能。

笔者认为,在今后的研究中,应该考虑各种技术与相关反馈的横向结合,并在纵向即在特征层、对象层和语义概念层上实现多层次的相关反馈,这样才能更有效地缩小图像检索过程中的语义鸿沟,以达到语义检索的目的。

4结论

“语义鸿沟”问题影响着目前图像检索系统的发展与应用。通过上面的讨论可以看到:能否准确地获取图像语义是解决图像检索中的“语义鸿沟”问题的关键。结合一些特定领域与一些特定方法,计算机可以自动地由图像低层特征推知高层语义,“自下而上”地建立图像视觉特征到语义信息的映射,但对于更广领域的图像集这些方法的通用性不强。相比之下,以人机交互方式,采用多层次相关反馈的方法使计算机在人的引导下,通过对用户反馈信息的学习和积累,获得用户对图像内容的认知和理解,是目前改进系统检索能力更可行的办法。同

目的探讨目前CBIR系统中广泛存在的"语义鸿沟"问题.方法阐述了该问题的表现及产生的实质;从获取图像语义的角度出发,研究和分析了当前针对这一问题的一些处理方法以及存在的问题,并提出了初步的解决思路.

西北大学学报(自然科学版)第35卷

时,就现阶段的研究看,要有效地缩小图像检索中的语义鸿沟,以下几方面的相关研究必须取得进展。

1)建立图像语义自动提取的规则。计算机使用规则自动推理得到图像语义信息已经有了很好的

Intelligence,2000,22(12):1

349 1379.

by

[2]队ⅪNsJ

P,RetrieVal0fsdⅡimages

conⅫ|[oL]

mtP:∥www一叭uk/esi/。7。m∥胛札d也aue“ges/

9—1c/。33‘pdf,2004们。12

塑,婴翌耋翌的,图像集:萼登垫翌!苎b3:芝=冀£=溉羔篡烹=:=

选取合适的底层特征组合实现图像与其语义内容的t=≤。。gniti。并c]。Pi:。ataw。v:IEEE

对应上作进一步研究。

459删

P。。,1994.

Image

2)完善基于机器学习的相关反馈机制。目前,大多数机器学习方法仅利用当前用户反馈信息来提交互的知识信息。因此,如何将长期学习和短期学习相结合,以改善现有基于机器学习的图像检索,是

今后需要研究的方向。

[4]vAILAYAA,FIcuEIREDoM,JAINETAL.A

。l。。。i6。。tion

fo…。t。。t-based。nd。。i。g[J].1EEE

retiem[J] IEEE

Multimedia,

高当前查询的检索性能,很少使用过去用户与系统Thns

[5]

Visual

onIma"Processing,2001,10(1):117一130.

coLoMBoc,DELBIMBoA,PALAP.Semanticsin

infbr|Ilation

1999,1

6(3):38_53-

3)改善用户查询机制。对于普通用户,人们更愿意用图像反映的语义信息以自然语言发出查询请求,但由于自然语言的模糊性,用户的检索需求往往不可能被准确地表达。笔者认为,如果能从分析用户的查询请求出发,研究并建立一种可在不同概念层次上表示图像语义的查询语言,将能有效改善现有查询机制并提高检索性能。

当然,要从根本上解决图像检索中的“语义鸿沟” 

问题,还需要让计算机能够真正模仿人的感知来观察和理解图像。从图像检索技术的发展水平看,今后研究的重点将放在基于语义的检索。综合多学科的技术

[6]何恒,.瓮英林一种用于图像检索的综合模糊直方

苎岁法[1] 中国图像图形学报,2001,6(7):694_

f71

RuIY,HuANGTs,MEHRoTRAs.c。。te。t-b。。。d

。。。。w

IEEE

re砸。。。1witll。lev。。。。fe。db。。ki。MARs『A]

P。I。t

c。Ilfo。Image

P。。。。。i。g[c].Pi。。at一

awav:IEEEness1997.815_818

[8J张磊,林福宗,张钹.基于支持向量机的相关图

像检索算法[J].清华大学学报(自然科学版),2002,42(1):80-83

[9]朱兴全,张宏江,刘文印,孥iFind:一个结合语义和

竺觉特征的图像相关反馈检索系统[J] 计算机学

璧苎墨紧要繁竺坠璧擎:紧熙罂Ⅲ,鑫轰篓裔髫‰数据库中基于颜色的特中的”语义鸿沟”问题的最有效途径,也是当今计算机

技术发展所能实现的最智能化的形式。

版),2000,30(3):189.192.

。。孟≤最和夏釜;≤五]。.言;i美莩毒i;;綦磊莘

参考文献:

[1]

sMEuLDERs

n¨{荠≈霎蒜纛主;透耋晏舅竺黧爹进展

A,woRRINGM,sAN耵NISs,以讲.

(编辑曹大刚)

”ars[J].1EEE

Trans0n

PattemAn—y8isandMachine

Reviewandresearchon"semanticgap¨probleminthe

contentbased

imageretI.ieval

WEN

Abstract:Ailn0fthepmblem

on

are

Chao.GENGGuo—hua

Todiscus8the”semantic

g印”proMem

whichexistsinthe

CBIR.Me恤ods.r11efonnand

origin

explored;fmmt}Iepointofacquiri“gtheim89esemantics,themethodsalld血eircuⅡentlacks

are

solvingth8pmblem

studied

and柚alyzed,andtowardsthemsomeresolvi“gstrat89ies

are

presentedelemen—

tadly.Reslllts

A‘presenttheapplyi“gmultil8yerrelevancefeedbackmethodsinthecBIRcouldbuildandmodify

theassociationlow—levelfeatureand

hi曲一levelsemantic,whichwouldbehelpfultonanDwthe”semanti。gap”in

im89eretrievalandreachth8pu。poseofsemanticretrievalatsometic-basedim89eretr主evalwouldbethemosteffective8pproach

to

extent.Condusi蛐Tb

achievethe阳alseman—

setdeth8problem.

万方数据

目的探讨目前CBIR系统中广泛存在的"语义鸿沟"问题.方法阐述了该问题的表现及产生的实质;从获取图像语义的角度出发,研究和分析了当前针对这一问题的一些处理方法以及存在的问题,并提出了初步的解决思路.

基于内容图像检索中的"语义鸿沟"问题

作者:作者单位:刊名:英文刊名:年,卷(期):被引用次数:

温超, 耿国华, WEN Chao, GENG Guo-hua

西北大学,信息科学与技术学院,陕西,西安,710069

西北大学学报(自然科学版)

JOURNAL OF NORTHWEST UNIVERSITY(NATURAL SCIENCE EDITION)2005,35(5)4次

参考文献(11条)

1.SMEULDERS A.WORRING M.SANTINIS S Content-based image retrieval at the end of the early years2000(12)

2.EAKINS J P Retrieval of still images by conterd 2004

3.GORKANI M.PICARD R W Texture orientation for sorting photos at a glance 1994

4.VAILAYA A.FIGUEIREDO M.JAINETAL A K Image classification for content-based indexing 2001(01)5.COLOMBO C.DELBIMBO A.PALA P Semantics in visual information retrieval 1999(03)6.何恒.余英林 一种用于图像检索的综合模糊直方图方法[期刊论文]-中国图象图形学报 2001(07)

7.RUI Y.HUANG T S.MEHROTRA S Content-based image retrieval with relevance feedback in MARS 19978.张磊.林福宗.张钹 基于支持向量机的相关图像检索算法[期刊论文]-清华大学学报(自然科学版) 2002(01)9.朱兴全.张宏江.刘文印 iFind:一个结合语义和视觉特征的图像相关反馈检索系统[期刊论文]-计算机学报2002(07)

10.晏春莉.耿国华.周明全 图像数据库中基于颜色的特征提取和度量算法[期刊论文]-西北大学学报(自然科学版)2000(03)

11.王惠锋.孙正兴.王箭 语义图像检索研究进展[期刊论文]-计算机研究与发展 2002

相似文献(10条)

1.期刊论文 席彩丽.Xi Caili 基于内容的图像检索高层语义处理方法 -图书情报工作2009,53(9)

从图像语义层次描述方式、图像语义抽取方法两个方面对利用语义进行图像检索的研究状况进行总结,提出建立语义模板用于支撑高层语义检索,同时应用多层次的相关反馈方法建立和修正图像低层特征与高层语义间的联系,缩小图像检索过程中的"语义鸿沟",达到一定程度语义检索的目的.

2.学位论文 王小玲 基于内容的图像检索技术研究 2006

随着数字图像以及网络技术的不断发展,基于内容的图像检索技术已经成为计算机视觉与多媒体计算的重要研究领域。基于内容的图像检索技术根据图像内容,如色彩、形状、纹理等特征或者这些特征的组合,在图像数据库中检索与查询图像相似的图像。

图像检索技术的关键问题是图像特征的表示方法与图像特征相似性度量方法.本文主要围绕这两方面的问题展开研究。主要工作与创新点包括以下四个方面:第一,对图像内容特征表示方法进行了研究,包括色彩与形状表示方法.针对传统颜色直方图无法反映色彩空间信息,容易导致误匹配的不足,我们提出了两种新的颜色直方图检索方法:平均面积直方图 (Average Area Histogram)与主要面积直方图 (Prominent AreaHistogram).这两种直方图根据每个颜色所形成的不连通区域的平均面积与主要面积大小建立直方图的bins,能够反映色彩的空间分布,对图像旋转、缩放具有鲁棒性。实验表明,这两种直方图能够区分色彩相似但空间分布不同的图像,提高直方图检索性能。利用少量色彩能够集中反映对象结构基本组成的特点,我们提出了一种新的基于区域的图像检索方法。通过降低色彩等级,分割出能够表示对象形状基本组成的区域序列.这些序列,能够表达一定的对象语义。仿真实验表明,本文提出的形状检索算法简单有效,取得了较好的检索效果。

第二,对线性与非线性方式的图像特征相似性度量方法进行了研究。首先,本文引入层次分析法(Analytic Hierarchy Process AHP)为多个内容特征分配权重,以线性方式实现图像相似性度量。对内容特征变化范围相似的对象,权重可以重用。实验结果表明,该方法对图像检索是适用、有效的。其次,为了反映图像低层特征与高层语义之间存在的非线性映射关系,本文提出了基于模糊逻辑的图像检索系统。使用模糊语言变量描述对象特征之间的相似性程度,以非线性方式推理图像相似性。模糊规则能够反映用户对客观对象的认知,从而反映不同用户主观感知差异。外观特征变化相似的对象可以适用相同的规则,系统具有良好的鲁棒性。试验表明,系统能够为用户提供个性化的检索服务,缩小“语义鸿沟”,提高检索性能。

第三,本文基于虚拟相关反馈(Pseudo-Relevance Feedback PRF)技术,提出了一种新的自动相关反馈检索方法:外部自动相关反馈(Outer Auto

Relevance Feedback OARF).基于图像内容特征距离,应用K_均值聚类方法,从初始检索结果中自动选择正例图像。以每幅正例图像作为新的查询,实施传统检索,然后对检索结果进行融合。

将用户从传统相关反馈检索方式的负担中解放出来。试验表明,本文所提出的外部自动相关反馈技术能够显著提高原始检索算法的性能,缩小“语义鸿沟”。

第四,本文对基于语义的图像检索方法进行了研究,实现了基于粗糙集(Rough Set RS)方法的风景图像分类系统。我们从风景图像中抽取2种与对象密切关联的主要色彩和这些色彩形成区域的尺寸、空间位置以及纹理特征,将风景图像转化为上述特征描述的对象。系统可以自动发现图像分类的知识,更加灵活地处理风景图像外观变化以及噪声。实验结果表明,系统产生的规则对4类风景图像的平均分类正确率达到85﹪。

3.学位论文 杨德三 基于内容的图像检索技术研究 2008

随着多媒体技术和Internet网络的迅速发展,人们获取图像的来源不断扩大和丰富。图像的应用和传播越来越广泛,但随之而来的是图像信息自身的无序化问题越来越突出。因此对日益庞大的图像信息库进行有效的组织、管理和检索显得日益重要,建立高效的图像管理系统成了亟待解决的问题。

目的探讨目前CBIR系统中广泛存在的"语义鸿沟"问题.方法阐述了该问题的表现及产生的实质;从获取图像语义的角度出发,研究和分析了当前针对这一问题的一些处理方法以及存在的问题,并提出了初步的解决思路.

这种需求推动了图像检索技术的研究和发展。基于内容的图像检索作为一种新兴的技术已经成为新的研究热点,受到研究者的青睐。

基于内容的图像检索包含两个层次:底层视觉特征和高层语义特征。由于提取语义特征存在很大困难,目前大多数的研究都是基于底层视觉特征,并研发出相应的系统。但这些系统普遍存在视觉特征和语义特征之间的不对称问题,也就是语义鸿沟。专家指出语义鸿沟的彻底解决依赖于模式识别、图像理解、计算机视觉、人工智能等领域技术上的突破,目前可行的办法就是找到尽量缩小语义鸿沟的技术。

要缩小语义鸿沟,一般从以下三个关键技术进行突破:一个是底层视觉特征的提取和描述,此为图像检索的根本和基础;另一个为检索算法,好的算法能大大缩小时间和空间复杂性,更重要的是能保证良好的检索率;最后一个是相关反馈技术,通过人的参与,改善检索结果,目前在图像检索和信息检索领域广泛应用。

本文对基于内容的图像检索的关键技术进行了深入研究。在简要的介绍了该领域的研究背景、意义、国内外应用研究现状之后,详述了通用的底层视觉特征的提取方法,并且探讨了相关反馈技术的发展。针对查准率低和语义鸿沟问题,提出了一种新的相关反馈方法。该方法可以避免为图像标注关键字的麻烦,只需要用户对检索结果按个人兴趣排序。通过计算系统输出顺序与用户排序的Rnorm值,系统能够自动调整各个特征的权重。实验表明重排序相关反馈机制较Rui方法在检索效果方面有很大提高,能够输出比较符合用户检索需求的结果,同时可以在一定程度上降低计算复杂度。 本文的研究只是对检索起到了改善的作用,彻底解决语义鸿沟还需要相关领域的研究取得质的突破才能有更好的办法。

4.期刊论文 向培素.XIANG Pei-su 一种基于近邻半监督聚类算法的图像检索系统研究 -西南民族大学学报(自然科学版)2010,36(4)

为了解决基于内容的图像检索(Content-Based Image Retrieval, CBIR)中存在的"语义鸿沟"问题, 本文提出了一种CBIR检索模型, 在模型中使用了基于近邻传播的半监督聚类算法和语义传播的算法, 通过近邻半监督算法对图像库中的图像进行聚类, 根据示例图像的视觉特征相似度在对应的聚类图像中进行相似度检索, 在检索的结果中根据用户提供的关键字进行关键字标注检索, 最后根据用户的反馈, 通过语义传播算法对图像库中的图像进行自动语义标注. 实验表明文中的模型是可行的, 其检索效果受到反馈次数的影响.

5.期刊论文 乔荣华.周明全.耿国华.QIAO Rong-hua.ZHOU Ming-quan.GENG Guo-hua 基于语义分类的文物图像标注研究 -计算机技术与发展2007,17(7)

由于图像数据中普遍存在的"语义鸿沟"问题,传统的基于内容的图像检索技术对于数字图书馆中的图像检索往往力不从心.而图像标注能有效地弥补语义的缺失.文中分析了图像语义标注的现状以及存在的问题,提出了基于语义分类的文物语义标注方法.算法首先通过构建一个Bayes语义分类器对待标注图像进行语义分类,进而通过在语义类内部建立基于统计的标注模型,实现了图像的语义标注.在针对文物图像进行标注的实验中,该方法获得了较好的标注准确率和效率.

6.学位论文 李晶 基于内容的图像检索相关技术的研究 2009

随着多媒体的推广和应用,以及信息和网络技术的发展,产生了大量的各式各样的视觉内容。图像是这些视觉内容中的一个重要的组成部分。它能够直接形象的表达信息。但如何从海量的图像中检索出自己感兴趣的内容成为当前人们面临的一个重要问题。因为传统的基于文本的检索已不能满足人们的需求。基于内容的图像检索正是解决此类问题的一个行之有效的方法。而本文所作的研究正是围绕基于内容的图像检索相关方法的探讨和实验。通过学习器学习训练样本的特性。在测试阶段用学习器对待测数据进行分类。<br>  

在基于内容的图像检索中,图像的低层特征与高层语义之间一直存在“语义鸿沟”问题,这是一个比较困难的问题。用支持向量机解决语义关联问题是目前研究的热点,支持向量机被认为是统计学理论中一种最具优势的模式识别方法。用支持向量机进行图像分类具有十分优秀的分类性能。然而传统的SVM是一种有监督的学习方法。利用已标记的样本训练分类器,对未知样本进行分类。人们更多的想有效利用大量的未标样本。半监督学习算法的直推向量机(TSVM)正是基于以上的想法设计的。并且本文将主动学习隔入其中,选择对于学习过程中最为有用的样本进行标注,这些样本能够最大程度减少分类误差。<br>  

本文所作的主要工作如下:1.对基于内容的图像检索进行概述。研究了图像的各种特征以及提取方法。2.关于SVM解决多类分类问题,将“一对多”方法进行改进。提出适合本文实验的多类分类方法。3.运用SVM解决图像中低层特征与高层语义之间的语义关联问题,如何选取核函数,来提高语义关联的性能。并对其中的多特征融合的技术进行实验。实验说明基于多特征的语义分类优于单一特征。4.介绍一种较新颖的半监督学习方法直推式支持向量机(TSVM),本文对半监督学习中引入主动学习的方法进行探索,提出一种基于TSVM与主动学习相融合的算法,并将其应用到小样本图像检索中,对进行相关实验。5.设计了一个基于内容的图像检索的框架,用于对本文所涉及的相关算法进行实验。

7.学位论文 王长虎 互联网环境下大规模图像的内容分析、检索和自动标注的研究 2009

随着互联网和数字摄影设备的普及和发展,互联网上的图像数量飞速增长。一方面,互联网上的海量图像吸引了越来越多的用户;另一方面,越来越丰富的图像资源使用户难以在浩如烟海的数据中找到其真正需要的信息。这使得快速、有效的图像检索技术成为商业界和学术界的一个重要研究方向。

当前,互联网图像检索主要分成两大类:基于文本的图像检索(text-based image retrieval,简称TBIR),和基于内容的图像检索(content-basedimage retrieval,简称CBIR)。TBIR在商业图像搜索引擎中被广泛使用。在TBIR系统中,互联网图像的文本信息用来索引和搜索图像。因此,图像文本标注的质量成为TBIR中的一个重要的问题。CBIR是学术界中一个非常流行的方向。在CBIR系统中,图像的视觉内容被用来索引。它面临的最主要的困难是语义鸿沟问题,即图像的低层内容特征(如颜色),不能有效的描述高层语义(如“狗”)。

在本文中,我们尝试充分利用互联网图像丰富的文本信息和视觉信息,来解决上面提到的几个问题。我们对自动图像标注、图像标注改善、减小互联网图像检索中的语义鸿沟、基于对象的图像检索等问题进行了深入的研究。另外,为了更好地处理和利用互联网上的海量数据,更有效地帮助用户的在线检索,我们在设计相关算法和实现检索系统的时候,还特别地注意了其处理大规模图像的能力以及实时性。本文主要成果和创新之处包括以下几个方面:

1.讨论并分析了自动图像标注问题,提出了一个多标记稀疏编码的框架来进行特征提取和分类,并把它应用到自动图像标注中。我们认为具有部分重叠标记的两张图像之间的语义相似度应该以一种重构的方式而不是一对一的方式来度量。因此,在这个框架中,图像标记向量之间的语义相似度,以及图像特征向量之间的语义相似度,都基于一对多的e1稀疏重构/编码来度量。

2.讨论并分析了大规模的自动图像标注问题,并提出了一个基于搜索的图像标注框架。在这个框架下,我们给用户提供了一个在线图像标注服务,可以对用户提交的任意图像进行实时的标注。我们从互联网上收集了一个大规模的图像库,并把它用做训练集来标注任意一张图像。快速检索技术的应用和大规模图像库的使用保证了我们提出的基于搜索的图像标注框架处理大规模图像的能力及实时性。

3.讨论并分析了图像标注改善问题。我们把图像标注改善问题表述成一个马尔可夫过程,并在这个框架下解释了已有的图像标注改善工作。针对已有工作的问题,我们提出了一个基于内容的图像标注改善算法。马尔可夫过程表示的有效性,以及待标注图像与训练集中图像的内容信息的充分利用,使得我们提出的算法很大程度上改善了已有算法中存在的若干问题。

4.讨论并分析了互联网上基于内容的图像检索中的语义鸿沟问题,并提出了一个基于排序的距离度量学习算法。通过互联网图像丰富的文本信息的引导,我们试图在视觉空间中学出一个新的距离度量,使得给定一张查询图像,基于这个新的距离度量,我们可以在图像库中检索到与查询图像语义上更相关的图像。基于这个新的距离度量学习算法,我们提出了一个大规模的基于内容的图像检索(CBIR)框架,并在2.4 million规模的互联网图像库上实现了一个实时的CBIR检索系统。

5.讨论并分析了用多实例半监督学习(MISSL)算法来解决基于对象的图像检索问题。我们针对MISSL问题提出了一个新的正则化框架。基于这个框架,我们提出了一个基于图的多实例学习(GMIL)算法来解决MISSL问题。同样,在这个框架下,GMIL可以分别退化成一个新的标准多实例算法(GMIL-M)和一个标准半监督学习算法(GMIL-S)。我们从理论上证明了GMIL-S算法具有闭式解,以及GMIL和GMIL-M的迭代解的收敛性。我们用GMIL算法来解决基于对象的图像检索问题,实验结果验证了GMIL算法的有效性。

8.期刊论文 李海芳.焦丽鹏.陈俊杰.王莉.贺静.Li Haifang.Jiao Lipeng.Chen Junjie.Wang Li.He Jing 情感语义图像检索技术研究 -计算机工程与应用2006,42(18)

目的探讨目前CBIR系统中广泛存在的"语义鸿沟"问题.方法阐述了该问题的表现及产生的实质;从获取图像语义的角度出发,研究和分析了当前针对这一问题的一些处理方法以及存在的问题,并提出了初步的解决思路.

图像中所蕴涵的丰富语义仅用若干低级物理特征是不能进行完整描述的,而且在语义映射时也会有信息丢失,因而产成"语义鸿沟"是在所难免的.将多特征融合,建立情感语义模型,分析情感的概念解析功能对提高智能信息检索的精度和效率是非常必要的.论文讨论了图像的颜色、纹理等特征的提取与表示,低阶图像可视化特征到高阶图像语义特征的映射过程,图像的情感语义分类,建立了情感语义模型,实现对基于情感语义图像的检索.对由2 500幅数字图像组成的数据集进行了实验,并对实验结果进行分析,部分结果是令人满意的,而且提高了基于内容图像检索的精度.

9.学位论文 耿苑 结合低层特征和高层语义的图像检索系统 2004

计算机技术、多媒体技术以及Internet技术的飞速发展产生大量的图像信息,因此如何有效地、快速地从大规模的图像数据库中检索出需要的图像是目前一个急需解决的重要问题.基于内容的图像检索技术和基于语义的图像检索技术正是解决这一问题的有效途径.前者研究的是根据自动获取的图像低层特征,从图像数据库中检索出相关图像;而后者研究的是如何从多种渠道获取图像语义信息,并根据语义检索相关图像.该论文主要围绕图像低层特征的提取和索引、高层语义特征的检索、弥补语义鸿沟的相关反馈技术展开详细的研究.并在研究的基础上,结合三项技术的优点,建立了高效实用的图像检索系统.此系统为图像构建语义关键字网络,并建立低层特征库,对图像实行特征和语义的复合索引;通过相关反馈技术一方面在线理解用户的查询意图,自动调整相似度测量准则以符合用户需求;另一方面给相关图像传递语义标注,更新相关性强度,充实语义网络,实现长期的学习和记忆.在检索的过程中,用户可以通过多种不同途径给出查询条件,图像的低层特征与语义网络互为补充以达到最佳的检索效果.经过试验测试,该文的图像检索系统可以在少量的反馈次数(平均5次)中达到进70%的准确率,而且随着系统的使用次数的增多,检索性能会逐步增长.

10.学位论文 周咏梅 基于区域的图像检索关键技术研究 2006

基于区域的图像检索技术是基于内容的图像检索的一个重要研究方向,它利用图像分割技术把图像分成多个区域,用区域的特征集来表示和索引图像,增强了系统捕获和描述用户对图像内容感知焦点的能力,在一定程度上实现了基于对象层次的检索,减小了图像底层特征和高层语义之间的语义鸿沟,有效地改进了检索性能。

这篇论文分析和概括了图像检索的基本原理、关键技术和检索结果的评价方法,并且对基于区域检索的关键问题进行了研究。

(1)提出了一种新的颜色空间量化方法,将人类对颜色的辨识能力融入到颜色空间的量化过程中,文章介绍了颜色样本采集方法和采集软件设计;对于颜色样本数据提出了基于模糊分类和基于BP神经网络的数据处理方法。这种量化方案,可以用于颜色特征的抽取及图像的区域分割。这种将人类感知的因素融入到图像检索系统中的方法,符合人类的视觉习惯,并且从一个新的角度来缩小低层视觉特征和高层语义特征的差异。

(2)提出了一种利用核模糊C均值聚类,对基于图像像素综合特征(颜色、纹理及位置特征)的图像区域分割方法;建议了确定较佳聚类的簇数目及参数方法;对区域特征的抽取和描述也给出了方法。使用核函数方法可以在一定程度下弥补基于内容的图像检索、分类中的低级视觉特征与高级概念之间的语义鸿沟。

(3)提出了基于区域的图像相似度计算方法,这种相似度计算法方法先按照区域的综合特征(颜色、纹理及位置)、直方图特征值及区域的形状特征分别进行相似度的计算,然后,将各自相似度加权乘积作为两区域的相似度。两幅图像的相似度为各区域最大相似度的平均值。

文章还提出基于例子图像的三种检索方式,详细分析了三种检索方式的权值确定的方法,并对基于这三种方式的检索系统的设计、实现及性能评测进行了介绍。

引证文献(3条)

1.张志强 一种新的基于改进聚类检索算法的CBIR系统研究[期刊论文]-计算机科学 2008(8)

2.韦娜.耿国华.周明全 基于相关反馈的文物图像语义标注[期刊论文]-西北大学学报(自然科学版) 2008(3)3.李峥嵘.刘月娥.何东健.龙满生.刘全中 基于内容的小麦害虫图像检索系统研究与实现[期刊论文]-农业工程学报 2007(11)

本文链接:/Periodical_xbdxxb200505011.aspx

授权使用:太原理工大学(tylgIP),授权号:73921896-5749-41c8-bef5-9e4401114c8f

下载时间:2010年12月6日

本文来源:https://www.bwwdw.com/article/pv61.html

Top