模式识别大作业 - 图文

更新时间:2023-10-04 14:51:01 阅读量: 综合文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

我看的论文题目是

What Are We Looking For: Towards statistical modeling of saccadic eye movements and visual saliency 下面是从本论文中了解到的几点:

1.研究目标:通过统计分析的方法(建立一个基于统计方法的框架,模拟人眼扫视过程,进行视觉显著性分析),尝试揭示“图像的哪些部分吸引了视点”(这一问题同“什么属性吸引注意力相似,但更容易研究)。

2.基本思想:该文的基本假设(场景中具有超高斯性的部分,就是人眼视觉处理过程中尝试寻找的部分)从视觉注视点的统计分析得出。得出的基本假设为两点:a:显著性是非常稀疏的,也就是说大多数地方的显著值都是0,而只有图中的很小区域的显著值有很大的值;b:具有很大的显著值的区域的周围区域通常具有丰富结构信息。而超高斯(super-Gaussianity)分布刚好具有这两点特征。 具体分析过程如下:

通过分析人眼注视在自然图像的统计特性,我们发现人类的注意力是稀疏分布,通常部署位置和丰富的结构信息。作者首先直观的研究了两个眼注视数据集(图片上标有人眼注视点),发现了上面说到的两个有意思的现象:

1.显著性是稀疏的。2.高显著性值倾向于出现在结构信息丰富的区域。

从统计学角度看,这两个特性同超高斯性相似,基于此作者提出这么一个假设: 场景中具有超高斯性的部分,就是人眼视觉处理过程中尝试寻找的部分。 这里说一下超高斯性的概念,在统计学中,峰度(Kurtosis)是一个衡量 实数随机变量概率分布的峰态的量。峰度值大于零的分布为 尖峰态分布,小于零的分布为低峰态分布,峰度值为零的分 布称之为常峰态分布。高斯分布是常峰态分布,且不受参数值影响。有时又称尖峰态分布为超高斯分布。峰度值大于零分布,就可以称之为具有超高斯性。

在统计学领域,通常利用kurtosis函数来模拟超高斯分布。本文通过定义一个随机映射矩阵w,将原始特征空间Z通过这个映射矩阵w,然后求其最大值的kurtosis。这样,就通过优化算法求这个w,而这个w也将决定哪些值是saliency。同样通过不停的迭代,能够得到不同的saliency点。本文能同时计算出saliency

map和视线扫描的轨迹

根据特征融合理论,显著度是由多个特征通道融合而成的,用于显著度检测 的特征应该与显著度具有相似的统计特征;对于一个视觉统计点,显著度具 有超高斯性,我们的注视过程就是在寻找场景中的超高斯成分。

这个图可以很好的解释这种现象。

这里介绍两个知识:扫视模拟和单个视点的模拟。 扫视模拟:扫视过程可以看成多个视点组成的一个序列或者说一个视点集合。本文使用了一个可视化的方法来模拟人眼扫视,Projection Pursuit。

数据及数据预处理:将图片采用滑窗方法分成N个patch,每个patch提取一个特征向量,所有特征向量组成一个 M*N矩阵。对此矩阵使用PCA以降低特征向量间的关联性,然后做个白化处理以降低特征间的关联性。最终得到一个M*N的数据矩阵Z。

单个视点的模拟: 将Projection Pursui变成SGC pursuit。 Projection Pursuit在优化映射方向的时候是给每个方向分配一个指标,用于表示这个映射方向的可视效果,在此处将这个指标函数设置成峰度函数便得到SGC pursuit。也就是说寻找最优映射方向的标准是——映射后的数据分布峰度值最大。 概括为如下过程: 1.准备数据Z。

2.随机初始化映射方向w,迭代地优化峰度函数Max Gp(w) = kurt(w*Z),得到一个最优映射方向w。

3.所有向量通过这个映射方向映射至一维空间RM=w*Z,每个向量的映射值称之为此向量对这个SGC的响应,RM(j) 即为第j个patch所对应的响应值,选取响应值最大的patch作为视点。

该文用到了projection pursuit统计方法。Projection pursuit是一个统计工具,在高维空间中寻找最优的投影方向;然后将原始数据减去这个方向上的投影数据,再继续重复前面的步骤。

projection pursuit的一个特点:projection pursuit是一个多元变量可视化方法,由高维映射至低维。不同于其他的线性映射可视化方法,为观察者提供多个含丰富信息的映射结果是很重要的。因为在高维空间数据的变化很可能是沿多个放向的。通过不同的初始方向,projection pursuit可以得到多个不同的可视结果。本文通过多次单个视点模拟来模拟扫视过程,为了防止每次最优映射方向相同,每次单个视点模拟过程中使用的初始向量要同之前得到的最优映射方向正交。

总结整个扫视模拟的过程:

1.准备数据Z。将图像表示成patch的形式,然后利用PCA和whitening,将原始数据转换成新的矩阵Z。

2.随初始化映射方向,并使其与之前得到的最优映射方向正交。 3.单个视点模拟,得到一个最优映射方向,及视点位置。 4.重复2-3,直至达到设定的次数。 5.输出视点序列。

3.算法流程

① 超高斯成分分析:给定图像I,滑动窗扫描将其变换成基于块的表示X,存储为矩阵形式,每个列向量表示一个变形后的图像块;用PCA去相关,白化后得到特征矩阵Z;在统计学领域,通常利用kurtosis函数来模拟超高斯分布。本文通过定义一个随机映射矩阵w,将原始特征空间Z通过这个映射矩阵w,然后求其最大值的kurtosis。通过projection pursuit优化算法求这个w,而这个w也将决定哪些值是saliency。在得到一系列的映射向量w时,我们需要将他们进行格拉姆-施密特正交化,来确保当前的优化方向与前面的优化方向不一致。同样通过不停的迭代,能够得到不同的saliency点。本文能同时计算出saliency map和视线扫描的轨迹。

② WAT目光定位:在得到了投影向量W后,计算这个投影方向上的响应图RMi:这个响应图就是原图中的那个具有最大的单个超高斯分布的区域,这个分布是基于图像颜色的分布。这样RM1对应图中具有最大SGC(Super Gaussian Component)对应的响应图,表示人眼首次注视的区域,RM2则是对应的次大SGC分布,RM3,...依次推理,直到W收敛。而W收敛意味着下次转移的位置与上次转移的位置距离很小。也就是以后的SGC响应太小,不能引起注意力了。

根据winner-takes-all原则选取响应值最大的位置作为注视点。

③ 显著图计算:响应图的非线性组合,pi为第i个响应图的直方图概率。

我学习《模式识别》感受:

首先谈一下我对模式识别的理解吧,模式识别是指对表征事物或现象的各种形式的(数值的、文字的和逻辑关系的)信息进行处理和分析,以对事物或现象进行描述、辨认、分类和解释的过程。就是通过计算机用数学技术方法来研究模式的自动处理和判读,我们把环境与客体统称为“模式”。随着计算机技术的发展,人类有可能研究复杂的信息处理过程。信息处理过程的一个重要形式是生命体对环境及客体的识别。对人类来说,特别重要的是对光学息(通过视觉器官来获得)和声学信息(通过听觉器官来获得)的识别。这是模式识别的两个重要方面。也是根据这两点模式识别在人工智能方面有着很重要的作用。说点和生活常见到的模式识别的应用,智能手机上的语音服务还有手机解锁中用到的人脸识别和指纹识别等等。再说一下我对这门功课的认识吧,就像老师所说这门课程带我们本科生而言学习起来可能比较吃力,因为毕竟模式识别需要的一些基础课程我们现在掌握的不够。但是老师课堂上所讲的内容还是能明白的,因为老师您是出于为我们考虑,所以用比较简单容易接受的方法介绍了课程知识。虽然短短的几周课程,但您还是用心的准备了,认真的讲授每一节课,谢谢您的努力付出,您辛苦了!

本文来源:https://www.bwwdw.com/article/etad.html

Top