中国膳食暴露评估数学模型及模型改进的若干方法哈尔滨工业大学祝

更新时间:2023-03-08 05:13:37 阅读量: 综合文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

全国第四届研究生数学建模竞赛

题号 A 摘 要:

本文建立由膳食模型、污染物分布模型、风险评估模型组成的中国膳食暴露评估数学模型。首先,参考全国总膳食研究设计合理抽样方案,采用三日称重法加询问法加记录法的调查方法,并根据污染物分布模型对食物进行合理分类,设计调查表,建立基于多元回归的全国膳食模型。其次,综合考虑污染物排放数据、日常食物和进出口监测数据及各自权重,建立基于对数正态分布的污染物分布模型来计算各类食物中各污染物的含量,并用已有的调查数据对模型参数进行估计和验证。然后,利用前两个模型的输出结果,建立基于支持向量机方法的风险评估模型,对全国、某个地区、某类食品的安全状况做出评价并给出预警,而且采用Monte Carlo方法,给出居民某项污染物摄入量的99.999%的右分位点。最后,针对符合性检验只能获得部分样本数据,前两个模型的数据可能不匹配,不同统计分类标准的转化以及利用省市监测数据估计全国情况等问题,提出一些建议和解决方法。

题 目 中国膳食暴露评估数学模型及模型改进的若干方法

参赛密码 (由组委会填写) 参赛队号 1021313 参赛学校 哈尔滨工业大学

参赛队员姓名 祝园园 桑俊俊 李国华

目录

1 2

模型假设和符号说明 人群食物摄入量模型 2.1 2.2 2.3 2.4 3

2 2

抽样方法的设计 ............................................................................................. 3 称重+记录+回顾的膳食调查方法 ................................................................ 4 抽样调查中食物分类办法 ............................................................................. 6 人群食品摄入量模型的建立 ......................................................................... 7

8

污染物分布模型 3.1 3.2 3.3 3.4 3.5

问题分析 ......................................................................................................... 8 模型假设 ....................................................................................................... 10 模型建立 ....................................................................................................... 10 参数的估计 ................................................................................................... 12 对部分数据的建模结果 ............................................................................... 13

15

风险评估概论 ............................................................................................... 15 模型的建立和求解 ....................................................................................... 16 模型分析 ....................................................................................................... 20 模型改进 ....................................................................................................... 20 对右分位点的估计 ....................................................................................... 21

21

4 风险评估模型的建立 4.1 4.2 4.3 4.4 4.5

5 改进模型的若干理论研究 5.1 5.2 5.3 5.4

污染物分布模型的修正 ............................................................................... 21 不配套的抽样调查数据的衔接方法 ........................................................... 22 调查数据中不同统计分类标准不同的转化 ............................................... 22 部分省市与全国的概率密度函数关系 ....................................................... 23

23

6 结论及后续工作

1

1 模型假设和符号说明

1) 假设全国总膳食调查数据大部分真实可信,失真数据比重极少,可以忽略。 2) 假设全国膳食调查数据能够真实反映全国平均膳食分布情况。

3) 假设全国膳食调查数据异常数据比例很少,可以剔除。例如某些具有特殊体

质的人具有与平常人差异很大的饮食数据。 4) 假设食品卫生检测部门日常对市场上食物的监测数据是真实可信的。 5) 假设食品的生产、销售、流通过程对食品中污染物的分布没有影响。 6) 假设在人群食品摄入模型中的调查对象和污染物分布模型中被调查食品的

消费者是在同一个城市,且他们所从事的职业的性质比较接近。这样由于两个模型中的数据不匹配造成的误差较小。 7) 假设在人群食品摄入模型和污染物分布模型中被调查对象的男女比例与该

地区或该省的男女比例非常接近。

X:满足一定概率分布的随机变量

?2:对数正态分布的对数方差

?:对数正态分布的对数平均值

?2:对数正态分布的对数方差的估计 ??:对数正态分布的对数平均值估计 ?ai:不同来源食品污染物含量分布的加权值

2 人群食物摄入量模型

人群食物摄入量模型的主要目的是用于估计不同地区、不同性别、不同年龄、不同季节、不同劳动强度、不同经济收入的人群各类食品的一天摄入量。 要建立人群食物摄入量模型,需获得我国总膳食数据。我国总膳食数据应该由调查人员入户调查获得。但是,由于这项调查工作量太大,如果实行普查,其工作量甚至超过全国人口普查,故而只可能在全国几亿户家庭中随机抽取几千户,至多几万户进行一次性调查。另外,中国居民消费的食品种类比其他国家居民消费的食品种类复杂得多,包括:主食、肉类、蔬菜、水果、水、饮料、各种调味剂和各种经过加工的食品,而主食又将包括大米、粳米、糯米、早釉、晚釉、米粉、面粉、馒头、花卷、挂面、面条、方便面、油条、烧饼、大饼、面包、桃酥、蛋糕、小米、玉米面、玉米棒等各种食品。不难看出,如果以此细分,食物将达数千种以上,在实际调查过程中进行如此详细地分类,其调查工作量太大,

2

而如果随意粗糙进行分类,则将影响调查的精度。

因此,如何根据我们国家的实际情况和污染物分布模型数据,设计合理的抽样调查方案和食物分类办法,使调查结果能尽量反映全国的实际情况,调查结果的数据使用起来效果比较理想,同时使调查的全部工作量在可以承受的范围内,是我们首要解决的问题。

2.1 抽样方法的设计

我国是一个拥有13亿人口,3.74亿个家庭的发展中国家。显然,对我国的总膳食调查采用普查的方法是不可行的。故而只可能在全国几亿户家庭中随机抽取几千户,至多几万户进行一次性调查(本模型中设为3万户)。参考我们国家已经完成的1990年、1992年和2000年三次中国总膳食研究,以及刚启动2007年第四次中国总膳食研究中采用的抽样调查方案,综合考虑我国的实际情况及各个省市的自身特点我们设计如下的抽样方案:

首先,在全国选择4个大区,共12个有代表性的省市。其中,黑龙江、辽宁、河北为北方一区,河南、陕西、宁夏为北方二区,上海、福建、江西为南方一区,湖北、四川、广西为南方二区,如图1所示。

图1 全国总膳食调查抽样方案

然后在每个省市分别选择有代表性的两个农村点和一个城市点,全国共36个调查点。选点的总原则是要使所选的点能代表本省人民的饮食习惯、营养状况和实际膳食结构。本次调查要求所选的三个点所得的综合结果能代表该省的平均膳食组成。那么每个调查点的需调查多少户呢?各省的调查户数相等吗?我们该怎样分配这3万调查用户呢?

3

一种比较直观而粗糙的分配方法是平均分配法,即把3万户数平均分配到各省,那么每个省市需要调查3万/12=2500户。每个调查点需要调查2500/3=833.3 即 833户。而从各省市人群食品摄入量估算全国人群食品摄入量是应根据各省市人口占12省总人口的比重不同,加上不同的全值,如公式(1)所示:

全国人群食品摄入量??(省市人群食品摄入量*人口比重) (2)

另种改进的方法是比重分配法,即按各省人口占12省总人口的比重,来分配每个省的调查任务。根据截止到2006年9月的全国人口普查数据而知[1],上述十二省的人口数据总和为57406万[1]。表2为各省的调查用户数分配表。其中每个省市的调查用户数=人口比重*3万。

表2 各省市调查户数 省份 人口数量 人口比重 调查用户数 省份 人口数量 人口比重 调查用户数 辽宁 4203万 0.0732 2196 河南 9613万 0.1675 5024 黑龙江 3813万 0.0664 1993 四川 8673万 0.1511 4532 陕西 3674万 0.0640 1920 河北 6735万 0.1173 3520 福建 3466万 0.0604 1811 湖北 5988万 0.1043 3129 上海 1625万 0.0283 849 广西 4822万 0.0840 2520 宁夏 572万 0.0100 299 江西 4222万 0.0735 2206 在比重分配法中,全国人群食品摄入量=∑省市人群食品摄入量。在本次调查中,我们采用比重分配法。

2.2 称重+记录+回顾的膳食调查方法

目前,常采用的膳食调查方法有称量(重)法 、记账法、 24小时回顾法(询问法)、 化学分析法、食物频率法(食物频数法)等。而实际调查时多采用多种方法的组合。每种方法都有其特殊的优点和不足,有时两种或多种方法相互结合能提供更准确的结果。例如,2 天的食物记录结合应用食物频率表可以提供不同组别合理的绝对平均摄入量,包括个体内与个体间的变异、根据摄入量低或高对高危人群进行分类。当然,这样结合运用,对于一些小规模研究而言耗费太高,但在一些大规模多中心或全国性调查中常常采用。多种方法组合应用,需要应答者与现场工作人员付出更多的时间和精力。

结合各方法的特点和全国总膳食研究常用的调查方法,我们采用三日称重法加三日询问法加记录法,对家庭所有成员进行膳食调查。调查的内容包括调查对

4

图3模型建立过程

3.2 模型假设

我们假设在食品生命周期的各个环节中由于生产、加工、运输、流通、销售等等环节产生的损失可以忽略不计;同时由于国内对于原料环节的数据没有建立严密的监控网络,无法获得有效的数据,因此在建立模型时只考虑食品流通环节的污染物含量分布。实际中,由于某些食品的原料来源不可考察,因此会存在一些本地生产的食品原料来源于进口的情况。在建立食品污染物含量分布模型时,我们也不考虑这种情况。

3.3 模型建立

设某类食品污染物(比如南方一区、秋季豆制品中无机污染物铅)的含量分布是一个随机变量,用X来表示。那么X的分布函数F(x)应该由本地生产的食品中污染物含量分布函数F1(x),本地生产的食品中出口部分的污染物含量分布函数F2(x)以及进口食品中污染物的含量分布函数F3(x)三部分加权而成,如公式(4)所示。

F(x)?a1F1(x)?a2F2(x)?a3F3(x) (4)

其中,a1、a2、a3分别是三类食品中污染物分布函数的权值,a2应该是负权值,a1和a3是正权值。

10

根据人们的经验,食品中污染物的含量值总是非负的,而且污染物含量越高的概率密度应该是越小。呈现出类似图4所示的右偏分布。在文献[[4]]指出化学污染元素铅的含量分布呈对数正态分布。

图4对数正态分布的概率密度图

因此,我们可以使用对数正态分布作为建立污染物分布模型的基础。于是食品污染物分布的模型建立变成了一个参数估计的问题。即三种食品中污染物的分

;1?,1,)布函数都可以用不同参数的对数正态分布来描述:F1(x)?F(x?F2(x)?F(x;?2,?2),F3(x)?F(x;?3,?3),其中F(x;?,?)是公式(5)所示的对

数正态分布的分布函数,其中?1,?1,?2,?2和?3,?3分别是三种食品中污染物分布对应的对数正态分布函数参数。

(lnu-?)?x1[-]2?2edu, x?0,?F(x;?,?)???02??u (5)

?0, x?0,?2其中?和?2分别是随机变量对数的平均值和随机变量对数的方差。 结合上述分析,我们可以假设食品中污染物分布模型是一个分布函数满足公式(6)所示的随机变量X。

F(x)?a1F(x;?1,?1)?a2F(x;?2,?2)?a3F(x;?3,?3) (6)

其中F(x;?,?)是公式(5)所示的对数正态分布的分布函数,a1、a2、a3分别是三类食品中污染物分布函数的权值。

11

3.4 参数的估计

3.4.1

样本数据的获取与处理

模型中考虑的因素包括本地生产的食品中污染物含量的分布和进出口食品中污染物含量的分布。可以利用的数据包括食品生产过程中的检测数据,卫生部门抽检监测的数据、进出口口岸的检验检测数据以及食品进出口的比例。 3.4.2

权值的确定

公式(6)中的a1,a2,a3分别对应这国内生产的食品中污染物含量的分布权值、出口的食品中污染物含量的分布权值以及进口食品中污染物含量的权值。这三个权值可以由食品进出口的比例的数据来确定。比如某种食品每年生产的量为q1,出口的量为q2,进口的量为q3。则a1,a,的权值分别为:2a3q3q1?q2a1?,a2?,a3?。

q1?q2?q3q1?q2?q3q1?q2?q33.4.3

?和?2的确定

这里我们采用两种方法来确定?和?2的值,一种是极大似然估计,另一种是代换方法。

极大似然估计是一种概率论在统计学的应用,它是参数估计的方法之一。已知某个随机样本满足某种概率分布,但是其中具体的参数不清楚,参数估计就是通过若干次试验,观察其结果,利用结果推出参数的大概值。极大似然估计是建立在这样的思想上:已知某个参数能使这个样本出现的概率最大,我们当然不会再去选择其他小概率的样本,所以干脆就把这个参数作为估计的真实值。 为了确定对数正态分布参数?与?的极大似然估计,我们可以采用与正态分布参数最大似然估计同样的方法。我们来看公式(7)

fL(x;?,?)?1fN(lnx;?,?) (7) x其中用fL表示对数正态分布的概率密度函数,用fN表示正态分布。因此,用与正态分布同样的指数,我们可以得到对数最大似然函数:

lL(?,?|x1,x2,...,xn)???klnxk?lN(?,?|lnx1,lnx2,...,lnxn)?常数?lN(?,?|lnx1,lnx2,...,lnxn). (8)

由于第一项相对于?与?来说是常数,两个对数最大似然函数lL与lN在同样的?与?处有最大值。因此,根据正态分布最大似然参数估计器的公式以及上面

12

的方程,我们可以推导出对数正态分布参数的最大似然估计:

????lnxkkn,

??2??k?)2(lnxk??n (9)

虽然极大似然估计有着较高的辨识精度和良好的估计特性,是一种非常常用

的传统估计,而且在对对数正态分布的参数进行估计时也都采用极大似然估计方法或者基于极大似然估计的方法[[5]-7]。但是,在目前可以获得的食品检测数据中,很多并不提供样本的具体值,而只是提供一个结果或者特征值,比如样本的平均值、方差和中位数等等。因此,在目前的数据上直接使用极大似然估计存在一定的困难。因此,建议可以在进行专门调查然后建立食品污染物含量分布模型或者基于偶然抽查数据和监测性检验数据建立食品中污染物含量模型时使用极大似然估计方法。

在少量数据,特别在是目前只存在部分特征数据的条件下建立食品污染物含量分布模型需要我们提供一个更简单可行的方法。从文献[[8]]中,我们可以知道对于一个满足公式(5)的对数正态分布的随机变量X,它的数学期望为:

E(X)?e???方差为

2/2 (10)

var(X)?(e??1)e2??? (11)

22给定期望值和标准差,也可以用如下关系求?与?:

1?var(X)???ln(E(X))?ln?1??2?E(x)2? (12)

?2?ln?1???var(X)??E(X)2? (13)

在对数正态分布,我们可以近似地用平均值和标准差来代入上述公式计算得到其参数?与?。

3.5 对部分数据的建模结果

从文献[9]中,我们获得了2000年吉林省粮食类食品中重金属污染物铅、砷、镉含量的监测结果,如表3所示。

13

表3 2000年吉林省粮食类食品中重金属污染物的监测结果 指标 铅 砷 镉 均数 0.079 0.063 0.008 标准差 0.052 0.086 0.006 中位数 0.063 0.022 0.006 将均数和标准差分别代入公式(12)和公式(13)计算得到三种金属污染物的分布参数如表4所示。

表4 2000年吉林省粮食类食品中重金属污染物含量分布参数 参数 铅 -2.718285 0.359954 砷 -3.290633 1.052024 镉 -5.051457 0.446287 ? ?2

用matlab画出三个分布函数的图形,如图5所示。

图5 2000年吉林省粮食类食品中重金属污染物铅、镉、砷含量分布

14

4 风险评估模型的建立

4.1 风险评估概论

由于人们的饮食习惯不同,人们对各个地区的某类食品的需求不一样,所以在对某类食品作风险评估时,应在某个地区范围内进行调查,这样即使在人群食品模型中的调查对象和污染物分布模型中被调查食品的消费者不一样,具体影响不大。

风险分析是对所要进行的一些活动是否带有风险所进行的理论分析,它是科学决策中进行预防性管理的一种工具。风险评估是对与危害因素有关的风险进行评估分析的一项工作,可以分为定性风险评估和定量风险评估。

风险评估时需要了解以下几个方面的信息:危害鉴定;评估化学物的人体暴露(接触)量;危害和风险评估的剂量—效应特征;以及危险性特征。食品的风险主要来自两方面,一方面是食品中的某些化学物,另一方面是食品中生物性因素。为方便模型的讨论,这里主要涉及某些化学物的危害性。

危害鉴定,又称为对危害的认定和识别,属于定性危险性评估的范畴。危害鉴定的目的在于确定人体摄入化学物的潜在不良作用危害识别不是对暴露人群的危险性进行定量的外推,而是对暴露人群发生不良作用的可能性作定性的评价。危害鉴定的研究程序有流行病学研究、动物毒理学研究、体外实验以及定量结构—反应关系。在这一步骤不确定性包括危害因素的正确分类,即对人体健康是不是危害因素,和进行分类时测量的质量。如果某因素经过多次试验被认定为阳性或阴性,则具有一定的精度。 暴露评估主要是根据膳食调查和各种食品中化学物质暴露水平调查的数据进行的,通过计算得到人体对于该种化学物质的暴露量。目的在于求得某危害物的剂量、暴露频率、时间长短、途径及范围。来估计人群与界面外环境化学物的接触。剂量—效应关系的评估就是化学物的摄入量与不良健康效应的强度与频率。危险性特征的描述的结果是对人体摄入某化学物产生不良效应的可能性进行估计,它是危险鉴定、危害性特征描述和摄入量评估的综合结果。某一化学物如果存在阈值,则对人群危险性可以采用摄入量与ADI(可接受日摄入量)相比较的百分比作为危险性特征的描述,如果所评价的化学物的摄入量较ADI小,则对人的健康危害的可能性甚小。

食品安全状态是指食品中危害物的污染程度,这里将危害物的污染程度划分为高、中高、中、中低、低五档,从食品安全的角度看,危害物对食品的污染程度当然是越低越好。通过对大量食品中的危害物的检测数据进行统计及分析处理,从宏观上得到该食品被污染的程度,可以非常直观地说明该食品的安全状态。食品中的危害物存在着多样性以及各种毒物本身的毒性也有差异。危害物的多样性,除了食品中危害物数量众多外,还表现在其他两个方面:一方面不同食品所对应的危害物有较大差异;另一方面,即使同一类食品所检测的危害物在不同的时期有较大的差异。在研究食品安全状态时针对危害物本身的多样性,我们

15

将危害物分为农药残留、兽类残留、生物毒素、微生物、微量元素、真菌毒素、添加剂、有机污染物共8类。

目前在中国,食品安全的评估与预警还是一个全新的研究领域尚没有一套成熟的理论与技术。通常来讲,对一个状态对象进行检测和趋势分析,首先要研究分析该状态对象的综合评价问题。所谓评价是指将某一个或某一些特定对象的属性与一定的参考标准进行比较,从而得出其好坏优劣的评价。一般有两种评价“单一评价”和“综合评价”。单一评价是指评价标准比较单一明确的评价,主要用于某物质单一属性或成分的分析。反之,综合评价是指评价指标比较复杂的多指标评价。综合评价和单一评价的区别往往是相对的,因为综合指标的得到最终也要落实到对单个指标的高度集成。

风险评估是一个复杂的统计和计算过程,该过程可以细分为以下几个阶段:建立食品的评价指标体系;统计和计算各个指标的值;将指标值代入风险评估模型,确定食品的安全状况,如不安全,则采取风险管理措施。

在第一阶段中,选食品中各种危害物物的含量作为评价指标。在第二阶段中,在人群食物摄入量模型和污染物分布模型中,近似得出某一种食品各种危害物的量。在第三阶段中,以第二阶段中得到的数据作为模型的输入,来评估食品的安全性。

4.2 模型的建立和求解

20世纪90年代中期由Vapnik提出的基于统计学习理论的支持向量机方法是统计学习理论的结构风险最小化准则的具体实现,其基本思想是在样本空间或特征空间,构造出最优超平面,使得超平面不同类样本集之间的距离最大,从而达到最大的分类能力。从数学的描述角度,支持向量求解过程本质上是一个非负的的二次型优化问题,在理论上可以得到全局最优的解析解,因此支持向量机不存在局部最优问题。另外支持向量机的计算规模与样本数量有关,而与各个样本的维数无关,并且指标间的相关性对分类评价结果影响不大。支持向量机的这些特征表明支持向量机方法非常适合于食品安全多指标评价问题的研究。

下面介绍支持向量机基本方法。

设训练样本集{(xi,yi),i?1,2,???,l},由二个类别组成,如果xi?RN属于第1类,则标记为正(yi?1),如果属于第2类,则标记为负(yi??1)。学习的目标是构造一个判别函数,将测试数据尽可能正确地分类,下面针对训练样本集为线性、非线性两种情况进行分别讨论。 4.2.1 线性情况

如果存在分类超平面

16

wt?x?b?0 (14)

使得

wt?xi?b?1,yi?1?? ? 其中i?1,2,???,l (15) tw?xi?b??,yi??1??则称训练集是线性可分的,其中wt?x表示向量w?RN与x?RN的内积。式

(14)和式(15)中的w?RN,都进行了规范化,使得每类样本集中与分类超平面距离最近的点满足式(15)的等式要求。对于式(15),可以写成如下的形式

yi(wt?xi?b)?1

(16)

由统计学习理论知,如果训练样本集没有被超平面错误的分开,且超平面附近的样本数据与超平面之间的距离最大,则该超平面为最优超平面,由上得到的判别函数

y(x)?sign(wt?x?b) (17)

其泛化能力最优,其中sign(?)为符号函数。最优超平面的求解需要最大化

221,表示wt?xi?b?1与wt?xi?b??1之间的距离,即最小化||w||2,||w||||w||2所以得到如下的二次规划问题

min1?||w||2?w,b2?其中i?1,2,???,l (18) s.t.,yi(wt?xi?b)?1??当训练样本集为线性不可分时,需要引入非负松弛变量?i,分类超平面的最优化问题为:

????ts.t.,yi(w?xi?b)?1??i? (19)

??i?0,i?1,2,???,l???其中的C称为惩罚参数,C越大表示对错误分类的惩罚越大。采用拉格朗

日乘子法求解这个具有线性约束的二次规划问题,即

l12min||w||?C??iw,b,?2i?117

ll?12maxmin{Lp?||w||?C??i???i[yi(wt?xi?b)?1??i]}??,?w,b,?2? (20) i?1i?1?s..,t?i?0,?i?0?其中?i, ?i为拉格朗日乘子,由此得到

?Lp?w?0?w???iyixi (21)

i?1l?Lp?b?Lp??i?0???iyi?0 (22)

i?1l?0?C??i??i?0 (23)

将(21)~ (23)式代入式(20),得到对偶最优化问题

?1llmax{Lp???i????i?jyiyjxixj}??2i?1j?1i?1??s..,0t??i?C? (24)

?l??iyi?0??i?1?最优化求解得到的?i中,可能是:?i?0;0???C;?i?C,后两者所对应的

lxi称为支持向量(support vector,SV)。由式(21)知只有支持向量对w有贡献,也

就是对最优超平面、判别函数有贡献,支持向量正是由此而得名,对应的学习方

法称之为支持向量机。在支持向量中,?i?C所对应的xi称为边界支持向量(boundary support vector,BSV),实际上是错分的训练样本点,0??i?C所对应的xi称为标准支持向量(normal support vector,NSV)。根据条件Kuhn-Tucker条件,即在最优点,拉格朗日乘子与约束的积为0,即

?i[yi(wt?xi?b)?1??i]?0??? (25)

?i?i?0??对于标准支持向量(0??i?C),由式(23)得到?i?0,则由式(3-1-12)得到

?i?0,因此,对于任一标准支持向量,满足

yi(wt?xi?b)?1 (26)

从而可得参数b为

18

b?yi?wt?xi?yi?xj?SV??jyjxjxi,xi?NSV (27)

为了计算的可靠性,对所有的标准支持向量分别计算的值,然后求平均值,即

b?1NNSVxi?NSV?(yi?xj?SV??jyjxjxi) (28)

式中NNSV为标准支持向量数。 4.2.2

非线性情况

训练集数据为非线性时,通过非线性函数将训练集数据映射到一个高维线性特征空间,在这个维数可能为无穷大的线性空间中构造最优分类超平面,并得到分类器的判别函数。因此,在非线性情况下,分类超平面为:

wt?(x)?b?0 (29)

判别函数为

y(x)?sign[wt??(x)?b] (30)

最优分类超平面的问题描述为

????ts.t.,yi[w??(xi)?b]?1??i? (31)

??i?0???类似与线性情况,得到对偶最优化问题

l12min||w||?C??iw,b,?2i?1?1llmax{Lp???i????i?jyiyj?(xi)?(xi)??2i?1j?1i?1?l?1ll???i????i?jyiyjK(xi,xj)?2? (32) i?1i?1j?1?s.t.,0??i?C?l??iyi?0??i?1?其中K(xi,xj)??(xi)?(xi)称为核函数。

l19

判别函数为:

y(x)?sign[??iyiK(xi,xj)?b] (33)

xi?SV其中阈值为

b?1NNSVxi?NSV?[yi?xj?SV??jyjK(xi,xj)] (34)

这样对于训练样本集为线性和非线性的情况已经将模型讨论出来了,判别函数出来后就可以对测试样本数据分类,以测试样本数据中那些分到好的一类的样本数目与测试样本总数目的比例k来评价食品的安全性,这里采用模糊集合理论将食品的风险程度模糊化,风险程度可以分为无风险(0.9~1)、低风险(0.75~0.9)、中风险(0.5~0.75)、中高风险(0.25~0.5)、高风险(0~0.25),即当k的值属于0.9~1,则视为该食品为无风险,当k的值属于0~0.25,则视为该食品处于高风险状态。对中风险及以上就可以给出预警。

4.3 模型分析

模型本质上是一个非负的二次优化问题,在理论上可以得到全局最优的解析解。支持向量机的重要特征之一就是解的稀疏性,即多数最优值?i为0,只有少量的?i不为0,也就是说只需少量样本就可以构成最优分类器。另外,模型具有很好的推广能力。

但是 ,这个模型还存在一些缺点。

支持向量机方法所需要的学习样本不一定一次获得,而很可能是分批获得(一个月或几个月组织食品安全领域专家进行综合评价一次),所以需要研究支持向量机的增量学习方法,即在加入新的学习样本时,训练样本集不是原训练样本集简单地加上新样本,而是在原来学习的基础上重新选择样本集,由此重新构成的样本集大小要大大低于所有样本集,学习速度会明显加快

在支持向量机方法中,当各类别的样本数有较大区别时,样本数量大所对应的类别,其对应的错误分类率小,而对样本数量少对应的类别其对应的错误分类率大,这样对测试样本分类时其结果总是偏向于样本数量多的类别,这现象称之为支持向量机方法的倾向性问题。

4.4 模型改进

由支持向量机方法可知,支持向量一定是位于训练集最边缘的点,因此,在研究支持向量机增量学习算法中可以用几何理论先找出训练样本集边缘的样本,当新增训练样本时,与旧的训练样本集构成新的样本集,在新的样本集中重新计

20

算边缘样本。

可以考虑采用加权支持向量机方法解决各类样本数不均衡导致的倾向性问题,产生倾向性问题的原因是各个类别具有相等的惩罚系数,可以考虑给各个类别设置不同的权重来提高类别的分辨精度。

4.5 对右分位点的估计

简单地看,每人每天某种污染物的摄入量等于此人每天摄入的含该种污染物的食物中该污染物含量的总和。考虑最简单的确定情况,某人某天就吃了一种食物A,该食物的摄入量为mA,该食物中污染物B的含量是一个确定的值?,则此人这一天摄入的污染物B的量为??mA。在风险评估模型中,食物的摄入量和该食物中污染物的含量不再是一个确定的值,而是随机变量。并且食物的种类不再是单一的一种,而是好多种按照一定比例分布的食物。因此在建立风险评估时需要综合考虑这些因素。

先考虑一种食物的情形,该食物的摄入量和该食物中污染物的分布都是随机变量,假设分别为X和Y,则显然该污染物的摄入量的随机变量Z?X?Y。由于在前面已经给出了满足一定分布的食物摄入量模型和污染物分布模型,我们可以通过计算机对膳食模型和污染物模型分别进行模拟,然后将食物摄入量分布和污染物含量分布进行整合就可以得到污染物摄入量的分布曲线。最常用的整合方法就是蒙特卡罗法((Monte Carlo models)。虽然蒙特卡罗分析技术被用于物理、化学和其他领域已经50多年了,但在1989 年之前很少应用于食品安全风险评定方面。在1989 年之后概率模型法才逐渐被应用于进行环境污染物和有害微生物的接触风险评定。通过蒙特卡罗模拟实验,我们得出通过每人每天通过某种食物摄入的污染物的含量的分布情况。然后,我们把每天摄入的不同食物中该污染物的含量相加就可以得出每人每天摄入了多少该种污染物,从而对该人的食品安全风险进行评估。

Monte Carlo模拟的结果也是一个随机变量Z的分布,我们可以对Monte Carlo方法模拟出来的样本点进行统计,从而近似地求出居民某项污染物摄入量的99.999%的右分位点。

5 改进模型的若干理论研究

5.1 污染物分布模型的修正

由于监测时间方面的要求和经费的限制,在日常检测时往往采用比较快捷的检测方法,即符合性检验,其缺点是当检测项目的检测结果是安全时就不再精确测量污染物具体的含量了,而笼统地用“未检出”作为检测结果。作为污染物分布模型的输入而言,如果“未检出”全部当成零来计算就一定会产生比较大的误

21

差,因此一定要改进。设检出和未检出的污染物含量分界值为检出下界,检出的样本占总检验样本的比重为检出率,主要考虑以下几种改进思路。

1)从大约占数据总量2%的偶然抽查数据获得小于等于检出下界的部分样本数据,其对应的频数乘以50就可近似得到随机变量取值小于等于某一数值的部分样本数据,再上尚已有的随机变量取值大于某一数值的部分样本数据。就可以得到这个随即变量的整体分布。

2)对未检出的数据以检出下界的1/2填充,那么污染物含量的均值计算就可以修正为:

均值=大于检出下界的污染物均值×检出率+检出下界×1/2×(1-检出率) 3)在理想情况下,我们已经求得污染物分布模型为对数正态分布。如果 X 是正态分布的随机变量,则 exp(X) 为对数分布;同样,如果 Y 是对数正态分布,则 log(Y) 为正态分布。 污染物分布模型为分布,则可对其做什么处理,转化为正态分布。根据正态分布的对称性,可以估算出缺失的那部分值,然后再换回来,就可以得到比较精确的方法

4)期望值最大化方法(Expectation maximization,EM):EM算法是一种在不完全数据情况下计算极大似然估计或者后验分布的迭代算法。在每一迭代循环过程中交替执行两个步骤:E步,在给定完全数据和前一次迭代所得到的参数估计的情况下计算完全数据对应的对数似然函数的条件期望;M步,用极大化对数似然函数以确定参数的值,并用于下步的迭代。算法在E步和M步之间不断迭代直至收敛,即两次迭代之间的参数变化小于一个预先给定的阈值时结束。 也可以把上述各个改进方法综合考虑,取这几种改进模型的均值,结果将会更精确。

5.2 不配套的抽样调查数据的衔接方法

人群膳食量摄入模型和污染物分布模型的输入都是抽样率很低的随机抽样的数据,而且这两批数据是不配套的,即人群食品摄入量模型中的调查对象极大可能不是污染物分布模型中被调查食品的消费者,如何让这两批数据衔接起来呢?

一种可以认为两批抽样调查是完全独立进行的,那么这两批数据都可以认为是互相独立的,我们可以对于膳食调查中有而污染物含量分布中没有的食品种类应该不予考虑,因为无法获得污染物在其中的含量。

5.3 调查数据中不同统计分类标准不同的转化

人群膳食量摄入模型和污染物分布模型的数据分类也很可能不配套,人群食品摄入量模型中的食品很可能远多于污染物分布模型中被调查食品或者两者的分类不完全一致(历史数据无法按现在的要求进行修改)。

22

可以把调查数据看成是从一些随机变量总体的并集中抽样得到的数据,并设法用它们来估计另一些随机变量(与前者部分相同,部分不同)总体的并集的概率分布函数。

5.4 部分省市与全国的概率密度函数关系

除了题目中提示的可以把调查数据看成是从若干个比较相近的总体的并集中有一定选择性地抽样所获得的数据,并用来估计这若干个有比较大共性的总体的并的概率分布函数。我们还可以按照全国不同地区的气候、饮食习惯、食物分布等等进行聚类,将全国分成若干个大区,每个区中选取有代表性的城市的检测数据来反映整个区域的情况,这样建立其全国的分布模型。另外,在对每个区进行调查时,按照人口百分比进行调查。

6 结论及后续工作

本文设计的参考全国总膳食研究以及全国居民营养与健康状况调查,设计合理抽样方案,采用三日称重法加询问法加记录法的调查方法,并根据污染物分布模型对食物进行合理分类,设计调查表,建立基于多元回归的全国膳食模型;在污染物含量分布模型的建立中,合理地考虑到了食品的进出口对分布的影响,进行了大胆的假设,建立了合理的基于对数正态分布加权的污染物分布模型。在给出对模型参数进行估计的理想化方法的同时,考虑到历史数据的限制,给出了实用的近似估计方法。最后使用已有的调查数据对模型的参数进行了估计和检验,符合实际情况。然后,利用前两个模型的输出结果,建立基于支持向量机方法的风险评估模型,对全国、某个地区、某类食品的安全状况做出评价并给出预警,而且采用Monte Carlo方法,给出居民某项污染物摄入量的99.999%的右分位点。

23

参考文献

[1]. 2006中国各省人口排名. http://www.hpooo.com/dispost.asp?BoardID=200&PostID=209. [2]. 高仁君, 陈隆智, 张文吉.农药残留急性膳食风险评估研究进展[J].食品科学,2007,28(2):

363-368. [3]. PSD. Unit to unit variation of pesticide residues in fruit and vegetables, [R]. The Advisory

Committee on Pesticides Report, HMSO, UK, 1997. [4]. 陈天金, 魏益民, 潘家荣.食品中铅对人体危害的风险评估[J].中国食物与营养,2007(2):

15-18. [5]. 吴其平.分组与删矢数据下对数正态分布的最大似然估计[J].福州大学学报:自然科学版,

2002,30(4):422-425. [6]. 王蓉华, 徐晓岭.对数正态分布参数的近似极大似然估计[J].上海师范大学学报:自然科学

版,2000,29(1):39-43. [7]. 王静. 分组数据情形下对数正态分布参数的最大似然估计[J]. 应用数学学报:2003,26

(4). [8]. Wikipedia. 对数正态分布. http://zh.wikipedia.org/wiki/对数正态分布. [9]. 李海波,房毅等. 2000年~2001年吉林省部分食品污染物调查分析.

24

附录

表 1. 中国膳食调查表 (a)家庭基本信息表 调查编号 分区 开始时间 结束时间 省市 北一()北二()南一()南二() 户口类别 城市()农村() 家庭经济收入 家庭成员个数 (b)家庭食品称重法消耗表 食物名称 初始重量(g) 大米 面粉 玉米面 糯米 小米 米粉 食油 食盐 糖 酱油 醋 味精 结束重量(g) 消耗量(g) (c)家庭成员每人每日用餐登记表

姓 名 中 餐早餐 次 餐 中 餐 中 餐 中 餐 中 餐 晚餐 早餐 晚餐 早餐 晚餐 早餐 晚餐 早餐 25

晚餐第一 天 第二 天 第三 天 用餐人 次总数 餐40% 40% 20% 40% 40% 20% 40 40% 20% 40 40%次20% 40% 20% 40% % % 比 折合人 日数 总人 日数 (d)家庭食品记录法消耗表

类别 食物名称 馒头 谷类 花卷 制品 挂面 结存量 购入量 废弃量 剩余量 消耗量 26

面条 油条 烧饼 大饼 面包 蛋糕 豆腐 豆浆 豆腐干 豆奶粉 豆类、坚果类及黄豆 其制品 绿豆 蚕豆 豌豆 花生米 土豆 薯类 及其制品 红薯 藕 粉条 猪肉 牛肉 肉类 鸡肉 及其制鸭肉 品 羊肉 火腿肠 蛋类 鸡蛋 及其制鸭蛋 27

品 鹅蛋 鹌鹑蛋 28

乳类 及其制品 牛奶 奶粉 酸奶 白菜 油菜 芹菜 韭菜 空心菜 青菜 蔬菜 及其制品 卷心菜 菠菜 豆角 蘑菇 茄子 西红柿 青椒 黄瓜 西瓜 苹果 桔子 水果 及其制品 香蕉 梨 葡萄 桃 哈密瓜 饮食用水 饮料及酒水 纯净水 啤酒 白酒 鱼 虾 水产 及其制蟹 品 鱼片干 海带 (e)家庭成员24小时膳食回顾调查表 家庭成员基本信息 姓名 出生日期 体重(千克) 劳动强度 健康状况 性别 民族 职业 经济收入 个人连续3天食物摄入量 食物类别 1

食物名称 原料名称 原料重量 进食时间 是否在家进餐? 男() 女() 1

29

30

本文来源:https://www.bwwdw.com/article/oya.html

Top