蠓虫分类模型

更新时间:2023-09-18 16:33:01 阅读量: 幼儿教育 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

蠓虫的分类模型

摘要

本文通过对两类蠓虫的触角长和翅长数据进行分析,用画散点图的方法对两类蠓虫进行区分,利用判别分析建模方法对未知的三个样本进行识别,将它们分类。在生物学中,根据触角长和翅长来识别一只蠓虫标本是Af还是Apf是很重要的。本文为此提供了方法。

在模型一中,本文通过画散点图,进而画出两条斜线将两类蠓虫分别划分在斜线的两侧,对它们进行分类。

在模型二中,本文通过马氏距离判别法对未知的三个样本进行判别,并将它们归类。得出的结果为:三个未知样本均为Apf类。

在模型三中,本文修改分类方法,用贝叶斯判别法对三个未知样本进行判别分类。计算结果表明:三个未知样本均属于Apf类。

最后,本文对马氏距离判别法做了误差分析,通过回代误判率和交叉误判率对模型进行评价。计算结果为:回代误判率为0,交叉误判率为0.0667。说明模型判别方法较准确。

本文从绘制散点图,利用判别分析建模方法角度对两类蠓虫进行识别,并对未知样本分类,进而利用误差分析对模型准确性予以预测,逐步深化,最后对模型进行评价与推广。

关键词 散点图 马氏距离 贝叶斯 回代误判 交叉误判

一、问题重述

(一)背景知识

两种蠓虫Af和Apf已由生物学家罗纳(w.L.Grogna)和维尔恩(W.W.Wirth)于1981年根据它们的触角长(mm)和翅长(mm)加以区分,6只Apf和9只Af蠓虫的触长,翅长数据如下:

Apf:(1.14,1.78), (1.18,1.96), (1.20,1.86), (1.26,2.00), (1.28,2.00), (1.30,1.96) ;

Af:(1.24,1.72), (1.36,1.74), (1.38,1.64), (1.38,1.82), (1.38,1.90), (1.40,1.70), (1.48,1.82),(1.54,1.82), (1.56,2.08)。 在生物学中,根据触角长和翅长来识别一只蠓虫标本是Af还是Apf是很重要的。

(二)要解决的问题

1、根据给定的数据,制定一种方法,正确区分两类蠓虫; 2、用我们的方法对触长、翅长分别为(1.24,1.80)、(1.28,1.84)、(1. 40,2.04)的三个样本进行识别;

3、假设Af是宝贵的传粉益虫,Apf是某种疾病的载体,在这种情况下我们是否应该修改所用的分类方法。

二、问题的分析

1、对问题一的分析

对问题一, 我们利用画出散点图,再画斜线的方法对给出的6只Apf和9只Af蠓虫进行区分。

2、对问题二的分析

对问题二,我们可以根据马氏距离判别分析法对未知的三个样本进行识别,将它们分类。

3、对问题三的分析

对问题三,我们可以修改分类方法,用贝叶斯判别法对所给三个样本进行判别,将它们分类。

三、模型的假设

1、在问题一中,假设两类蠓虫的协方差矩阵是相等的; 2、假设Apf与Af的总数相同或Apf占总数的

69,Af占总数的,这样在用贝1515叶斯判别法时,即可用按比例分配方法估计两个总体的先验概率; 3、样本无性别差异。

4、触角长与翅长作为指标同样重要。

5、用触角长与翅长来判别蠓虫是充分的。

四、符号说明

A………………………………………………Apf类蠓虫 B………………………………………………Af类蠓虫 m1………………………………………………A类的均值向量 m2………………………………………………B类的均值向量 S1………………………………………………A类的协方差矩阵 S2………………………………………………B类的协方差矩阵 n1………………………………………………A类样本的容量 n2………………………………………………B类样本的容量

五、模型的建立与求解

1、问题一的建立与求解

区分步骤:

(1)利用Matlab软件,画出两类蠓虫分布的散点图如下:

2.12.0521.951.91.851.81.751.71.651.61.11.151.21.251.31.351.41.45图1 两类蠓虫分布的散点图1.51.551.6ApfAf(2)由散点图我们可以画出两条斜线,由此区分两类蠓虫,如下所示:

图2 用斜线区分两类蠓虫

(3)由图我们可以区分出两类蠓虫

2、问题二的建立与求解

用马氏距离判别步骤:

(1) 计算A、B两类的均值向量与协方差矩阵; m1=mean(A), m2=mean(B), S1=cov(A), S2=cov(B); (2) 计算总体的协方差矩阵

s?(n1?1)s1?(n2?1)s2;

n1?n2?2( 3) 计算未知样本x到A,B两类马氏平方距离之差 :

d=(x-m1)S-1(x-m1)’- (x-m2)S-1(x-m2)’; (4) 若d<0,则x属于A类;若d>0,则x属于B类。

(5)模型的求解:我们利用Matlab软件进行编程,可以求出三个样本到A类与B类的距离之差分别为d=-4.3279 ,-2.7137 ,-3.9604,三个均为负值,这说 明三个样本到A类的距离要近一点,所以这三个样本都应归于Apf类。

3、问题三的建立与求解

我们改变分类方法,用贝叶斯判别法判别蠓虫,其步骤如下:

(1) 判别总体的协方差矩阵是否相等; (2) 总体是否服从正态分布:

首先对每个指标进行一元正态分布的检验,若有一个指标不服从正态分布,则总体不服从正态分布;若每个指标都服从一元正态分布,且各指标不相关则总体服从正态分布。

(3) 利用按比例分配方法估计两个总体的先验概率:

两类蠓虫所占比例即为:p1=6/(6+9)=0.4; p2=9/(6+9)=0.6; (4) m1=mean(A); m2=mean(B);

本文来源:https://www.bwwdw.com/article/n3ah.html

Top