山东大学2016模式识别考试题回忆版

更新时间:2023-11-22 21:27:01 阅读量: 教育文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

一、判断题(共10个题)

请写清楚题号,在答卷纸上填写√或×,不要直接在本页回答。

特别说明:本部分题目的得分规则为:答对一个题,得2分;不答(即放弃回答)的题,本题得0分;答错一个题,得-2分(即反扣2分)。本道大题得负分的,从其他大题扣除。所以,判断题的回答,建议慎重对待。

1. 基于最小错误率的贝叶斯概率是 损失函数0-1的 基于最小风险贝叶斯概率的特例 2. 监督参数估计是(太多记不住)。。。

3. 单隐层神经网络在经过足够训练后,不管节点多少,总能找到全局最优解。 4. 决策树可以生成规则集,且生成的规则集是可以解释的。 5. SVM向量机在样本数据少、非线性的情况下有优势。 6. Bagging是一种串行学习框架。

7. 泛化能力指的是在训练集中体现的特点。 8. Self_Trainning是一种半监督的方法。 9. 决策树属性选择是依照信息增益比。

10. 2006年以前,多隐层神经网络因为缺乏良好的算法,限制了深度学习的发展。

二、计算题

12设在某个局部地区细胞识别中正常和异常两类的先验概率分别为: P(?)?0.91??正常状态: 异常状态:

P(?2)?0.1现有一待识别的细胞,其观察值为x,从类条件概率密度分布曲线上查得

p(x|?1)?0.2,p(x|?2)?0.4试使用贝叶斯决策对该细胞x进行分类(要求给出具体计算过程及计算结果) 解:

?1?2利用贝叶斯公式,分别计算出 及 的后验概率

根据贝叶斯决策规则,有

P(?1|x)?0.818?P(?2|x)?0.182

所以合理的决策规则是把x归类于正常状态。

P(?1|x)?p(x|?1)p(?1)?p(x|?)p(?)jjj?12?0.2?0.9?0.8180.2?0.9?0.4?0.1P(?2|x)?1?P(?1|x)?0.182三、简答题

1、应用贝叶斯决策需要满足的三个前提条件是什么?

(1)分类的类别数;(2)先验概率;(3)各类的类条件概率密度。

2、试简述您对先验概率和后验概率理解

? 先验概率:预先已知的或者可以估计的模式识别系统位于某种类型的概率。根据大数定

律,当训练集包含充足的独立同分布样本时,先验概率就可以通过各类样本出现的频率

来进行估计。

? 后验概率:后验概率是通过贝叶斯公式对先验概率进行修正,计算而得出的概率。表示

系统在某个具体的模式样本X条件下位于某种类型的概率。

3、试简述Fisher线性判别的基本思想

解决多维到一维的投影问题,利用线性判别方法解决一维分类问题。

从k个总体中抽取具有p个指标的样品观测数据,借助方差分析的思想构造一个线性判别函数,构造原则是使得总体之间区别最大,而使各总体内部的离差最小。有了线性判别函数之后,对于一个新的样品,将它的p个指标值带入线性判别函数式中求出结果值,然后根据一定的规则,就能判别新的样品属于哪个总体。

? 投影降维:将多维空间的样本投影到一维空间,根据实际情况找到一条最好的、易于分

类的投影线。寻找合适的投影方向,即寻找好的变换向量。

? 一维分类:当维数和样本数都很大时,可用贝叶斯决策规则;上述条件都不符合,可用

先验知识选定分界阈值点y0,再有决策规则判断x属于何类别。

4、试简述何为k-近邻法

(1)K-近邻学习是一种常用的监督学习方法,

(2)k-近邻法的基本思想:给定一个训练数据集,对新的输入实例,基于某种距离度量找出训练集中与其最靠近的 K 个实例(邻居)。然后基于这 K 个实例的信息来进行预测,使各点邻域体积为数据的函数,而不是样本数的函数,实现各点密度估计。看这K个近邻中多数属于哪一类,就把输入实例归为哪一类;

5、试简述您对非线性支持向量机(SVM)理解

对于线性支持向量机,选择一个合适的惩罚参数C >0 ,并构造凸二次函数线性规划问题,求得原始问题的对偶问题的最优解

,由此可以求出原始问题的最优解;

在处理非线性问题时,可以通过将非线性问题转化成线性问题,并通过已经构建的线性支持向量机来处理。在线性不可分的情况下,SVM首先在低维空间中完成计算,然后通过选择合适的核函数来将样本从原始空间映射到高维特征空间,最终在高维特征空间中构造出最优分离超平面,从而分离非线性数据。

(1)选取适当的核函数得对应的最优解

(2)选择

; 的一个满足

的分量,求; 和适当的参数

,构造原始问题的对偶问题,求

(3)构造决策函数;

6、试简述何为度量学习

在机器学习中,对高维数据进行降维的主要目的是希望找到一个合适的低维空间,在此空间中学习比原始空间更好。事实上,每个空间对应了在样本属性上定义的一个距离度量。度量学习可以根据不同的任务来自主学习出针对某个特定任务的度量距离函数,找出一个合适的距离度量。

度量学习方法可以分为通过线性变换的度量学习和度量学习的非线性模型。

7、试简述何为半监督学习(SSL)

半监督学习是监督学习与无监督学习相结合的一种学习方法,就是让学习器不依赖外界交互,自动地利用未标记样本来提升学习性能。它主要考虑如何利用少量的标注样本和大量

的未标注样本进行训练和分类的问题。

SSL的成立依赖于模型假设,当模型假设正确时,无类标签的样例能够帮助改进学习性能。包括:1)平滑假设2)聚类假设3)流形假设。

8、试简述何为聚类

聚类试图将数据集中的样本划分为若干个通常是不相交的子集称为一个『簇』,通过这样的划分,每个簇可能对应于一些潜在的概念(类别),并且这些概念对于聚类算法而言事先是未知的,聚类过程仅能自动地形成簇结构,簇所对应的概念语义需要使用者来把握和定义。

9、试简述您对稀疏表达的理解

稀疏表达的目的就是在给定的超完备字典中用尽可能少的原子来表示信号,可以获得信号更为简洁的表示方式,从而使我们更容易地获取信号中所蕴含的信息,更方便进一步对信号进行加工处理,如压缩、编码等。两大主要任务就是字典的生成和信号的稀疏分解。

假设一个样本数据 D,D 对应的矩阵中存在很多零元素,并且它们不是以整行整列的形式出现的,那么这种表达是稀疏的。这样的稀疏表达形式对学习任务会有不少好处。例如,SVM 在文本上有很好的性能。

若给定数据集 D 是稠密的,即普通非稀疏数据,我们可以通过『字典学习』(『稀疏编码』)来将样本转化为合适的稀疏表示。

10、试简述您对流型学习的理解

假设数据是均匀采样于一个高维欧氏空间中的低维流形,流形学习就是从高维采样数据

本文来源:https://www.bwwdw.com/article/21gv.html

Top