数理统计在经济和管理中的应用

更新时间:2023-03-08 06:51:24 阅读量: 综合文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

毕业设计(论 文)

数理统计在经济和管理中的应用

院 别 专业名称 班级学号 学生姓名 指导教师

数学与统计学院 数学与应用数学

7110418 何 俊 李晓奇

2015年06月08日

东北大学秦皇岛分校毕业设计(论文) 第 I 页

数理统计在经济和管理中的应用

摘 要

步入21世纪,社会经济和管理水平飞速发展,在经济和管理领域问题的研究中,我们除了要学习些量化的研究方法,还要掌握定性与定量有机结合的研究技能,而数理统计这门学科正是为此而开设的。随着概率论的不断发展,对数理统计的研究逐渐发展成为新的一个数学分支,对数理统计的研究主要是从怎样有效地搜集和整理分析受到随机变量干扰的数据方面入手,进而对所考虑分析的问题作出合理的推断或预测,为作出某种决策提供可靠的意见和有力的支持。

目前,随着统计方法在各个领域中的广泛应用,数理统计这门学科已发展成为具有多个分支的大家族。随着社会经济的多元化、金融交易的多样化、国际市场间资本移动的迅猛增长、以及电子商务的出现,数理统计及其应用将会继续发展和扩大。

本文选取了数理统计中的两个极为重要的理论:假设检验理论和回归分析理论进行着重介绍,对其中的一些应用思想方法进行了剖析和解释,并以工厂的生产管理和国民经济的核算为例,介绍了这两种理论思想在其中的具体应用,并进行MATLAB和SPSS软件实现,为数理统计在经济和管理领域中应用提供了参考案例。

关键词:回归分析,假设检验,MATLAB,SPSS

东北大学秦皇岛分校毕业设计(论文) 第 II 页

The Application of Mathematical Statistics in the Economic and Management

Author: He Jun Tutor: Li Xiao-qi

Abstract

The 21st century, the social economic and management level rapidly developing, in the study of economics and management issues, we in addition to learning some quantitative research methods, but also grasp the organic combination of qualitative and quantitative research skills, and mathematical statistics and that is why the subject. With the continuous development of probability theory, mathematical statistics research has gradually developed into a new branch of mathematics, mathematical statistics research mainly from how to effectively collect and organize the analysis of the data of disturbance by random variables, and then to consider the analysis of the problem to make reasonable inference or forecast, the opinions of the to make some decisions to provide reliable and strong support.

Now, with the statistical method is widely used in various fields, mathematical statistics discipline has developed into a large family has multiple branches. With the diversification of social economy, the diversification of financial transactions, the rapid growth of capital movement among the international market, and the emergence of electronic commerce, mathematical statistics and its application will continue to develop and expand.

This paper selected two very important theory in the mathematical statistics: the theory of hypothesis testing and regression analysis theory focuses on some of these applications thinking were analyzed and interpreted, and the accounting of factory production management and the national economy as example, describes the specific application in which these two theories of thought, and the MATLAB and SPSS software, several statistics in the field of economics and management provide a reference case.

Key Words: Regression analysis, Hypothesis testing, SPSS, MATLAB

东北大学秦皇岛分校毕业设计(论文) 第 III 页

目 录

1 绪 论 .................................................................................................................................... 1

1.1 课题背景及意义 ......................................................................................................... 1 1.2 国内外研究现状 ......................................................................................................... 1 1.3 论文的内容 ................................................................................................................. 2 2 数理统计基础 ...................................................................................................................... 3

2.1 统计数据的整理与描述 ............................................................................................. 3

2.1.1 母体与子样 ........................................................................................................ 3 2.1.2 统计量 ................................................................................................................ 3 2.2 几种重要的概率分布 ................................................................................................. 4

2.2.1 正态分布 ............................................................................................................ 4 2.2.2 ?2分布 ............................................................................................................... 6 2.2.3 t分布 .................................................................................................................. 7 2.2.4 F分布 ................................................................................................................. 7 2.2.5 自由度 .................................................................................................................. 8 2.3 参数估计 ..................................................................................................................... 8

2.3.1 点估计 ................................................................................................................ 8 2.3.2 区间估计 ............................................................................................................ 9 2.3.3 两种参数估计方法 ............................................................................................ 9 2.3.4 估计量的评判标准 .......................................................................................... 10

3 假设检验理论 .................................................................................................................... 12

3.1 假设检验的基本原理和问题的提出 ....................................................................... 12 3.2 假设检验的步骤 ....................................................................................................... 12

3.2.1 提出原假设和备择假设 .................................................................................. 13 3.2.2 确定并计算适当的统计检验量 ...................................................................... 14 3.2.3 给定显著性水平 .............................................................................................. 15 3.2.4 做出统计决策并解释 ...................................................................................... 15 3.3 置信区间 ................................................................................................................... 16 4 回归分析理论 .................................................................................................................... 18

东北大学秦皇岛分校毕业设计(论文) 第 IV 页

4.1 什么是回归分析 ....................................................................................................... 18 4.2 回归模型 ................................................................................................................... 18

4.2.1 数学模型简述 .................................................................................................. 18 4.2.2 回归参数的最小二乘估计 .............................................................................. 19 4.3 回归方程的假设检验与自变量的选择 ................................................................... 19

4.3.1 回归方程的线性假设检验 .............................................................................. 19 4.3.2 自变量的选择 .................................................................................................. 20 4.4 基本回归诊断 ..................................................................................................... 20 4.4.1 残差诊断 .......................................................................................................... 21 4.4.2 共线性诊断 ...................................................................................................... 21

5 数理统计在经济和管理中的应用实例 ............................................................................ 22

5.1 假设检验在生产管理中的MATLAB实现 ............................................................. 22 5.2 回归分析模型在国民经济核算中的应用及SPSS求解 ........................................ 23 结 论 .................................................................................................................................. 29 致 谢 .................................................................................................................................. 30 参考文献 .................................................................................................................................. 31 附 录 .................................................................................................................................. 32

东北大学秦皇岛分校毕业设计(论文) 第 1 页

1 绪 论

1.1 课题背景及意义

面对21世纪深刻的社会变革和飞速的经济发展,我国高等教育面临严峻的挑战与难得的机遇。这就要求我们高校学生除了要学习些量化的研究方法,还要掌握定性与定量有机结合的研究技能,所以,学好数理统计课程尤为重要。

随着概率论的不断发展,对数理统计的研究逐渐发展成为新的一个数学分支,对数理统计的研究主要是从怎样有效地搜集和整理分析受到随机变量干扰的数据方面入手,进而合理地推断出或预测所要考虑分析的问题,为作出某种决策提供可靠的意见和有力的支持。目前,统计方法已广泛应用到各个领域,数理统计已逐渐发展成为具有多个分支的数学综合学科。随着世界经济的多元化、金融市场交易种类的丰富化、国际市场间资本流通的高速增长,数理统计及其应用势必不断向纵深发展和横向扩大。

近年来,我国学者对数理统计在经管领域中的应用研究初见成效,但应用方法局限于抽样方法和相关分析,多数研究还处于试验阶段,要想将数理统计方法广泛应用到实际经管领域中去,我们还有漫长的路要走。换言之,我国数理统计在经管领域中的应用目前和我国社会主义国情一样尚处在初级阶段。为了促进社会主义四化建设,我们要更深入地推动数理统计在社会经管领域中的实际应用发展。 1.2 国内外研究现状

在国内,以王惠文为代表的中国学者研究了海量数据的分析技术——符号数据分析及其应用。符号数据分析(symbolic data analysis, SDA)方法的提出得到了迅速的发展,SDA 运用数据打包的新理念,对传统的数据概念做了本质性的扩张, 在海量的原始数据原有内在逻辑关系不被破坏的前提下,传统的统计分析技术被迁移扩展到符号数据分析体系中,有效地解决了存在于使用传统的统计分析方法在处理海量数据方面中的局限性[1]。

在国外,对“复杂性”的研究较为瞩目,尤其是对Markov chain Monte Carlo :MCMC(马尔可夫链蒙卡尔理论)的研究建立了可实际应用的统计模型,绘制了一幅广阔的应用蓝图。90 年代以来,众多实际应用都存在分析对象较为复杂、以及正确识别模型结构十分困难等问题,但是,一些专业统计软件的使用,使得MCMC模拟可以解决实际

东北大学秦皇岛分校毕业设计(论文) 第 2 页

应用中遇到的许多“复杂性”问题[2]。此外,由于 MCMC 理论的运用,使得古老的贝叶斯统计得以再度复兴,并且在此之前被认为无法实施计算的统计方法也因MCMC理论的运用而变得容易许多。 1.3 论文的内容

本文一共分为五个部分。

第一部分为绪论,主要叙述课题的背景及意义和国内外数理统计研究的一些进展和成果,以及本文的研究内容。

第二部分主要回顾数理统计中的一些基础知识和基本概念,为顺利地开展本文对《数理统计在经济和管理中的应用》课题的研究打基础。

第三部分主要介绍了假设检验基本理论的假设检验原理和假设检验基本步骤,为后文假设检验理论的应用做准备。

第四部分主要介绍了回归分析理论,对回归模型做一个大致介绍,为后文回归分析理论的应用夯实基础。

第五部分介绍了数理统计在经济和管理中的具体应用及MATLAB和SPSS的软件实现。

最后的结论总结全文,对全文的撰写简要回顾。

东北大学秦皇岛分校毕业设计(论文) 第 3 页

2 数理统计基础

为了顺利地开展本文对《数理统计在经济和管理中的应用》课题的研究,本章将对数理统计中的一些基本概念和术语做一简要回顾。 2.1 统计数据的整理与描述 2.1.1 母体与子样

在数理统计学中,我们称所要研究对象的全体构成的集合为母体或总体,而称母体中的每一个成员为个体。例如,研究某个地区城乡居民的收支情况时,则该地区所有居民的收支状况即为我们研究的总体,而每个居民的收支状况就是所要研究的个体。

为了推断总体的某些特征时,我们按一定的抽样技术从总体中抽取若干个体,我们称这一抽取过程为抽样,称所抽取部分个体为子样或样本,而称所抽取的个体数为子样容量。如在研究白领阶层奢侈品消费时,随机抽取2000名白领来进行调查,这2000名白领就是一个子样,子样容量就是2000。 2.1.2 统计量

通过抽样调查或由资料统计所得的原始数据,一般是无规律可循的,很难从中直截了当地得出有价值的东西,因此,一般需要对获取的原始数据加以整理,并用简明醒目的方式描述出人们感兴趣的信息。数理统计中提取信息的主要方法是对原始数据按一定的规律进行运算,构造一个合适的依赖于子样的函数(不依赖任何参数),这样的函数就是统计量,称统计量的分布为抽样分布。

下面我们简要介绍一些常见的统计量[3]。

设?1,?2??,?n是从母体?中取出的容量为n的子样,统计量

??称为子样均值;统计量

??i?1nin (2.1)

21n1n222Sn???i?????i?? (2.2)

ni?1ni?1

??称为子样方差,而统计量

东北大学秦皇岛分校毕业设计(论文) 第 4 页

?Sn21n??i???n?1i?1??2 (2.3)

称为无偏子样方差,它是修正后的子样方差,二者间的关系为

?Sn?2n2Sn (2.4) n?1一般地,统计量

1nk????i (2.5)

ni?1k称为子样k阶矩(k阶原点矩);统计量

1nMk???i?? (2.6)

ni?1??k称为子样k阶中心矩。 2.2 几种重要的概率分布 2.2.1 正态分布

在经管领域的研究中,大多随机变量的概率分布一般都可看作正态分布。比如一个城市居民的家庭经济收入和消费支出,某股票月收益的百分比,某种产品的某质量特性指标都可以近似用正态分布来描述。实际研究某问题时,可以通过随机变量的抽样数据的频数直方图与正态分布概率的钟形曲线相比较,由此判断该随机变量是否为正态随机变量。

正态随机变量X之概率密度函数为:

p(x)?1e2????x???22?2,???x??? (2.7)

其中,?为X的均值,?2为X的方差。我们称此密度函数为正态密度,相应地,其分布函数为

F?x??x1e???2??2y?????2?2dy,???x??? (2.8)

并且称F?x?为正态分布,简单记作N??,?2?,于是有正态随机变量X~N??,?2?。

我们通常认为正态分布的密度曲线一般是以?为中心,两侧呈对称分布的形状,

东北大学秦皇岛分校毕业设计(论文) 第 5 页

该曲线的形状好似钟的一个剖面,所以我们称之为钟形曲线。?越大,该曲线的峰度越低;?越小,密度曲线的峰度越高;无论参数?和?取何值,密度曲线所覆盖的面积均等于1. 正态分布的密度曲线见图2.1.

0.80.70.60.50.40.30.20.10 -5 -4 -3 -2 -1 0 1 2 3 4 5 ?2=0.25 ?2=1 ?2=4 图2.1 正态分布图的密度曲线

在正态分布的概率密度中,当?=0,?=1时,称随机变量X遵从标准正态分布,

简记为X~N?0,1?,其密度函数通常以??x?表示,相应的分布函数则记作??x?,所以

??x?????y?dy???x12??x??e?y22dy (2.9)

下面介绍把一般的N??,?2?分布的随机变量?变成标准正态变量?的过程: 设?是N??,?2?的随机变量,则

P???x??这时令

x1e???2??2y?????2?2dy

东北大学秦皇岛分校毕业设计(论文) 第 11 页

1、无偏性

对于一个估计量,多次变更数据求估计值时,估计值的平均值与真值相一致的性质

???,则?的无偏估计为??。 叫做无偏性,即E?

2、一致性

随着数据个数的增多,估计量从概率上接近真值的性质叫做一致性。 3、均方误差

均方误差(mean square error)通常用MSE表示,估计量的误差的平方的均值叫做

??均方误差,即

??E????MSE?????2???E?????, ?var???????22????表示??是估计量??的方差,表示??自身变异的程度;?E??这个估上式中,var???????为0,此时有 ?为?的无偏估计,则?E?计量的系统偏差。如果???2????2????E?MSE????????.

4、有效性

?,??是较???var??2,则称??2为待估参数?的两个无偏估计量,若var??2更为有设?111????效的估计量。

东北大学秦皇岛分校毕业设计(论文) 第 12 页

3 假设检验理论

统计推断的一个主要内容是统计假设检验,在本章中,我们简单回顾一下假设检验

的基本知识,简单提及一些区间估计的内容。 3.1 假设检验的基本原理和问题的提出

假设检验(或显著性检验)就是指事先提出母体参数或母体分布形式的一个假设,即原假设,然后根据抽取的子样信息来判断原假设是否合理,从而判断出母体与原假设之间的显著性差异情况。它的基本原理是首先对母体的某个特征大胆作出某种假设,然后抽样查究,再统计推理,对拒绝或接受该假设作出推断[6]。

假设检验的基本依据:在一次试验中通常不会发生概率很小的随机事件,即“小概率原理”。据此,从原假设H0出发,在规定的显著性水平α下,检验从所研究的母体中抽取的一个子样,在H0成立的条件下,若发现“相应统计量取到的子样代入统计后所得值”为小概率事件,换言之,小概率事件在一次试验中发生了,但是根据假设检验的基本依据,这与“小概率原理”相悖,所以,此时就拒绝H0,接受H1;不然接受H0。

在假设检验中,首先我们要解原假设H0问题的提出。假设检验的目的理论上是检验H0的母体与子样抽自的母体是否发生了显著性差异;事实上就是因为事先已对H0产生了怀疑,而纯粹为了推拒绝它,拒绝必须要有充分的理由;而接受只因在目前显著性水平下我们缺少拒绝的理由。

总之,首先假设检验中合理提出H0至关重要,我们应本着以下原则提出H0 [7]: i)应设可能遭拒绝的一方为原假设; ii)设可能接受的一方为备择假设;

iii)若在假设检验时因作出错误决策而付出较高代价,则应尽可能降低作出此错误决策的概率;

iv)当子样观测值与假设检验相应给定值非常接近时,应该适当增加子样容量,再继续观测进行检验;

(v)从某种角度上来说,在假设检验中得到拒绝H0的论断,更具有指导意义。 3.2 假设检验的步骤

东北大学秦皇岛分校毕业设计(论文) 第 13 页

一个完整的假设检验应按以下步骤进行: (1)提出假设;

(2)构造合适的统计量,并由子样数据计算出统计量的值; (3)规定显著性水平,设定检验规则; (4)做出判断。

假设检验的步骤还可以用流程图来表示,如图3.1所示。

根据实际问题提出假设 选择并计算统计量 给定显著性水平

不拒绝原假设H0 得出H0可能真实的结论 Y 根据规则作出统计决策 N 否定原假设H0 得出H1真实的结论 图3.1 假设检验步骤流程图

3.2.1 提出原假设和备择假设

用H0表示原假设,通常是设定母体参数等于某值;而备择假设与原假设互相排斥,不能同时成立。

假设检验问题实际上就是判断H0正确与否,若拒绝H0,则意味着接受H1. 假设检验可以分为单侧检验和双侧检验。假设某一参数?大于等于某一数值?0或小于等于?0的假设检验问题,称为单侧检验。在单侧假设检验中提出的原假设和对立假设为:

H0:???0,H1:???0 (3.1)

H0:???0,H1:???0 (3.2)

若提出的H0为?等于?0,那么只要???0或???0二者有一成立即可否定原假设,

东北大学秦皇岛分校毕业设计(论文) 第 14 页

我们称此类假设检验为双侧检验。其原假设和对立假设为

H0:???0,H1:???0 (3.3)

由图3.2我们可以看到双侧检验和单侧检验的拒绝域分配

图3.2 双侧、单侧检验的拒绝域分配

在假设检验中,确立H0与H1时应本着以下两个原则[8]:

(1)H0是在试验中有极大可能出现的事件,而H1在试验中很难发生。所以,在做单侧检验时,应视H0为预想结果的反面,即希望证明之。

(2)应视可能犯的严重错误为第一类错误,因为犯第一类错误的概率可控,犯第二类错误的概率不可控(“第一类错误”与“第二类错误”将在下文另作介绍)。 3.2.2 确定并计算适当的统计检验量

用于假设检验的统计量称为检验统计量,它是根据所抽取子样计算的用于检验原 假设是否成立的随机变量。检验统计量中应包含所检验的母体参数。

事实上,检验统计量就是母体参数的点估计量,但点估计量并不能直接作为检验统计量,只有将其标准化后,方可用于度量它与H0的参数之间的差异程度,其中,

检验统计量=点估计量-原假设值。

点估计量的标准差在具体的检验问题中,可根据不同的问题选择构造不同的统计量。例如,在做回归方程的显著性检验时,常常选择F统计量;在回归系数的显著性检验中选择t统计量或F统

东北大学秦皇岛分校毕业设计(论文) 第 15 页

计量。

3.2.3 给定显著性水平

显著性水平是指人们拒绝正确的原假设的概率或风险。通常取这个概率α=0.05或0.01. 换言之,接受原假设为正确的决定的可能性是95%或99%.

假设检验所依据的原理是“小概率事件”原则,小概率事件如果在某一次实验中发生了,我们就有理由怀疑H0. 而拒绝或接受原假设的决策是以子样资料为依据的,因此,就存在着接受错误的假设或拒绝正确的假设的可能性。这里,我们称在H0为真时而拒绝H0为“弃真”错误或第一类错误;称H0为假时接受H0为“取伪”或第二类错误。

在假设检验中,我们有必要对显著性水平的含义做一个深入透彻的理解这有助于我们明晰思考问题的思路以及把握信息的内容。深刻理解显著性水平的含义对我们确定研究方案有相当重要的意义,学者认为[9]:

(1)它是在H0为真的条件下,断言否定原假设、得出关于母体参数的结论以及犯错误的概率。

(2)它也是在H0与实际状况不一致,即H0为假的条件下,假设检验否定H0、得出结论以及求出正确的母体参数的最小概率。

(3)在通常不知道H0的真伪时,它就是假设检验否定H0和产生结论的最小概率,以及犯错误的最大概率。

(4)当把假设检验视作测算母体参数的方法时,它就是产生错误测算结果的最大概率。

(5)它不是假设检验中犯错误的概率,也不是假设检验中否定H0产生结论的概率,更不是假设检验中产生错误结论的概率。 3.2.4 做出统计决策并解释

根据显著性水平和统计量的分布,可以找出接受域和拒绝域的临界值,我们把根据规定的显著性水平查表得到的检验统计量的数值叫做临界值。我们只需比较临界值与计算出的统计量的值就可以作出接受H0或拒绝H0的统计决策。

比较统计量的观测值与临界值的大小,若观测值落在临界值所划定的尾部(称之为拒绝域)内,则拒绝H0;否则认为拒绝H0的证据不足,只能被迫接受H0.

东北大学秦皇岛分校毕业设计(论文) 第 21 页

在评价回归方程拟合效果,我们主要考虑以下三个方面:(1)用回归直线做拟合检验;(2)考察回归方程的线性关系;(3)显著性检验回归系数[13]。

有许多种方法来判定回归模型能否恰当地表示所分析的数据,在此仅介绍如何使用简单的残差诊断与共线性诊断。 4.4.1 残差诊断

回归模型时对观测点集拟合的关系式。从回归模型出发,可以得到预测值。观测值

和预测值之间的差称为残差。一般地说,如果回归方程较好地反映y与x的线性关系,残差应该是服从正态分布的。所以较简单的方法是作残差图。

一般认为,若一个回归模型满足所给的基本假定,所有残差应是在e=0附近随机变

化,并落在差异不大的一条带子中,也就可以说明回归模型满足基本假设。 4.4.2 共线性诊断

我们称拟合多元回归时,各自变量间存在线性或近似线性的关系为共线性问题。共线性诊断是对自变量观测值构成的矩阵XTX进行分析。共线性诊断常用条件指数和方差膨胀因子。

东北大学秦皇岛分校毕业设计(论文) 第 22 页

5 数理统计在经济和管理中的应用实例

数理统计在经济和管理中有着广泛的应用,数理统计的应用为高层管理者提供了决 策支持和理论保障。而数理统计在经济和管理中的应用也促进了数理统计的发展。下面本文就数理统计在经济和管理中的应用作出简要的实例分析并进行软件实现。 5.1 假设检验在生产管理中的MATLAB实现

工厂在日常的生产活动中,由于生产技术上的创新、管理的改善或劳动力的增加,往往能提高工厂的生产效率,但是这些成本投入是否能为工厂带来经济效益的提高仍尚待考量。首先,我们给出一个简单的例子。

某工厂甲、乙两台机床加工同一种产品,其中,乙机床是新引进的加工设备,从中随机抽取若干件由这两台机床加工的产品,测得所抽取产品直径(单位:mm)如下:

甲机床:20.1 20.0 19.4 20.5 20.1 19.8 20.2 19.7 19.2 19.5 乙机床:19.0 18.8 20.0 20.0 19.6 19.8 19.9 20.3 20.1 19.6 试求甲、乙两台机床所加工产品的直径方差相等与否?取置信度??0.05[14]。 解析: 这是母体均值未知时的两个正态方差的比较检验,据题目要求,由已知条件建立如下假设:

H0:?12??22,H1:?12??22

MATLAB的实现:

打开MATLAB的Command Window,输入程序 clear all; A=[20.1

20 19.4

20.5

20.1

19.8

20.2

19.7

19.2

19.5]

%定义甲机床对应的子样观测值向量 B=[19 18.8

20 20 19.6

19.8

19.9

20.3

20.1

19.6]

%定义乙机床对应的子样观测值向量 alpha=0.05;

%取置信度等于0.05 tail='both'; %尾部类型为双侧

[h,p,CI,STATS]=vartest2(A,B,alpha,tail)

东北大学秦皇岛分校毕业设计(论文) 第 23 页

%调用vartest2函数进行两个正态母体方差的比较检验,返回变量h、检验的p值、方差之比的置信区间CI及结构变量

运行程序,输出结果 A =

20.1000 20.0000 19.4000 20.5000 20.1000 19.8000 20.2000 19.7000 19.2000 19.5000

B =

19.0000 18.8000 20.0000 20.0000 19.6000 19.8000 19.9000 20.3000 20.1000 19.6000

h = 0 p = 0.6153 CI =

0.1759 2.8507 STATS = fstat: 0.7081 df1: 9 df2: 9

由输出结果可知,p =0.6153>0.05,因此,在置信度??0.05下接受原假设,可以认为甲、乙两台机床加工的产品直径方差相等,该工厂没有必要引进乙机床加工设备。 5.2 回归分析模型在国民经济核算中的应用及SPSS求解

国民经济是衡量一个国家经济发展的重要指标,也是一个国家综合国力的重要体现。目前,我国已超越日本成为世界第二大经济体,但这并不意味着我们已步入发达国家行列,而且我们尚未步入小康社会。到2020年我国即将全面实现小康社会,国民经济必大有增长。下面我们以1978年至2013年国内生产总值[15]为例,研究其对应的回归模型.

东北大学秦皇岛分校毕业设计(论文) 第 24 页

表5.1 国内生产总值

本表按当年价格计算。 单位:亿元

年 份 国内生产总值 第一产业 第二产业 第三产业

1978 1980 1985 1990 1995 2000 2005 2010 2011 2012 2013

3645.2 4545.6 9016.0 18667.8 60793.7 99214.6 184937.4 401512.8 473104.0 519470.1 568845.2

1027.5 1371.6 2564.4 5062.0 12135.8 14944.7 22420.0 40533.6 47486.2 52373.6 56957.0

1745.2 2192.0 3866.6 7717.4 28679.5 45555.9 87598.1 187383.2 220412.8 235162.0 249684.4

872.5 982.0 2585.0 5888.4 19978.5 38714.0 74919.3 173596.0 205205.0 231934.5 262203.8

1、作出因变量y与各个自变量的样本散点图

记国内生产总值为因变量y,第一产业为自变量x1,第二产业为自变量x2,第三产业为自变量x3.

(1)打开spss数据管理窗口,定义四个数值比变量:国内生产总值y,第一产业x1,第二产业x2,第三产业x4,输入表1的数据。

(2)正确操作spss,分别输出y与x1、y与x2、y与x3的散点图(图5.1、图5.2、图)

东北大学秦皇岛分校毕业设计(论文) 第 25 页

图5.1 y与x1散点图 图5.2 y与x2散点图 图5.3 y与x3散点图 2、利用spss求回归方程

由因变量y与各自变量x1、x2、x3间的散点图可知y与x1、x2、x3线性相关。设回归方程为

y??0??1x1??2x2??3x3 (5.1)

取选入变量的显著性水平为0.05,则对回归方程进行检验时,若P≤0.05,则该变量可选入方程;取剔除变量显著水平为0.10,则对回归方程进行检验时,若P≥0.10,则从方程中剔除该变量。正取操作spss,输出如下结果:

东北大学秦皇岛分校毕业设计(论文) 第 26 页

图5.4 残差分布直方图 图5.5 正态概率P_P图

表5.2 Variables Entered/Removedb

Model Variables Entered 1 x3, x1, x2a a. All requested variables entered. b. Dependent Variable: y

Variables Removed . Method Enter

表5.3 Model Summaryb Model 1 R 1.000 R Square 1.000 Adjusted R Square 1.000 Std. Error of the Estimate 895.1788 a. Predictors: (Constant), x3, x1, x2 b. Dependent Variable: y

表5.4 ANOVAb Model 1 Regression Residual Total b. Dependent Variable: y Sum of Squares 5.222E11 5609415.074 5.222E11 df 3 7 10 Mean Square 1.741E11 801345.011 F 217222.302 Sig. .000a a. Predictors: (Constant), x3, x1, x2

东北大学秦皇岛分校毕业设计(论文) 第 27 页

表5.5 Coefficientsa Model Unstandardized Coefficients B 1 (Constant) x1 x2 x3 a. Dependent Variable: y 191.668 .948 .951 1.049 Std. Error 614.523 .148 .045 .036 Standardized Coefficients Beta .091 .432 .478 t .312 6.381 21.094 29.055 Sig. .764 .000 .000 .000 表5.6 Residuals Statisticsa Predicted Value Residual Std. Predicted Value Std. Residual a. Dependent Variable: y Minimum 3740.795 -1551.2905 -.911 -1.733 Maximum 566719.688 1402.4364 1.553 1.567 Mean 211822.273 .0000 .000 .000 Std. Deviation 228519.1512 748.9603 1.000 .837 N 11 11 11 11 3、分析模型输出结果 表5.2为输入/移去的变量,给出了进入模型和被提出的变量的信息,由此表可知,所有三个自变量都进入模型,这说明解释变量都是显著的。

表5.3为模型汇总,描述了模型整体拟合效果,拟合优度系数为1.0,反映了因变量与自变量间良好的显著的线性关系,与前文所述的因变量和自变量的散点图相吻合。此外,表5.3还显示了R平方及调整后的R值估计标准误差。

表5.4为方差分析,由此表我们可以看到模型的设定检验F统计量的值为217222.302,显著性水平的P值几乎等于0,这说明因变量与自变量间有明显的线性关系。

表5.5为回归系数表,由此表我们可以得知回归系数

????0,?1,?2,?3???191.668,0.948,0.951,1.049?,

由输出结果可知R的绝对值等于1,F?217222.302?F1?0.05?3,7??4.35,P=0,显然满足P???0.05,说明因变量与自变量之间显著地线性相关,求得的线性回归模型

y?191.668?0.948x1?,0.951x2?1.049x3

可用。

表5.6为残差统计表,此表显示了预测值、残差、标准预测值、标准残差。根据概

东北大学秦皇岛分校毕业设计(论文) 第 28 页

率的3西格玛原则,标准化残差的绝对值最大为1.567,小于3,这说明子样数据中没有奇异值。

图5.4和图5.6给出了模型残差的直方图和正态概率P_P图,我们在模型中始终假设残差服从正态分布,所以从这两幅图中,我们可以直观看出回归后的实际残差分布并不明显地服从正态分布。但是,也不可盲目否定残差服从正态分布的假设,这是因为我们用来分析的子样容量太小。从正态概率的P_P图(用以比较残差分布与正态分布差异)来看,图的横坐标为观测的累计概率,纵坐标为期望的累计概率,斜线对应着一个均值为0的正态分布。若图中的散点密切分布在这条斜线附近,说明随机变量残差服从正态分布,否则应该怀疑随机变量的正态性[16]。基于以上认识,由图中的散点分布状况可知,残差分布基本是正态的。

东北大学秦皇岛分校毕业设计(论文) 第 29 页

结 论

在撰写本文之前,我搜集了大量的资料,仔细阅读了前人在数理统计方面的研究,后取他人之长,将自己的对数理统计应用的一些思想观点注入文中。

不管是在企业生产管理领域还是在社会经济领域问题的研究中,数理统计都大有用武之地,并且应用也越来越广泛。本文选取了数理统计中两个重要的理论:假设检验理论和回归分析理论,粗略地研究了其在经济和管理中的应用。其中,先介绍了假设检验理论的简单应用,这是一种由浅入深的思想,接下来介绍了回归分析理论的应用,其中包含了假设检验的理论的应用。

对本文课题的研究锲合了本专业数学与应用数学的教学要求,树立了我学以致用的基本思想,但本文存在着诸多不足之处,比如例题代表不够鲜明,所考虑的影响因素较少,研究内容较简单,子样容量较小等;此外,对各自变量间是否存在相互影响尚未作出分析,可适当在这些不足之处加以完善。

东北大学秦皇岛分校毕业设计(论文) 第 30 页

致 谢

在写作本篇论文的过程中,我遇到了不少麻烦,从一开始的选题,再到所需资料的搜集,直至全文的撰写完成,首先,我衷心地感谢我的导师李晓奇老师不厌其烦的指导和监督,在我感觉论文写不下去的烦躁之余,李老师幽默风趣的谈吐给我带来了不少的乐趣,缓解了我紧绷的神经。其次,我还要感谢我的室友汪云峰同学,在我撰写本文过程中无资料可借鉴的情况下,他给我提供了一些可引用的文献。最后,再次感谢在我撰写本文时给予我帮助的每一位老师和同学。

东北大学秦皇岛分校毕业设计(论文) 第 31 页

参考文献

[1] 王惠文.一种海量数据的分析技术[J]. 北京航天航空大学学报,2004(17):41-145 [2] 徐传胜. 数理统计学的发展历程[J]. 高等数学研究, 2007(10): 121-126. [3] 魏宗舒. 概率论与数理统计教程[M]. 北京: 高等教育出版社, 2008. [4] 何晓群. 实用回归分析[M]. 北京: 高等教育出版社, 2008.

[5] 孙文清. 正态分布下区间估计与假设检验内在联系的 SPSS分析[J]. 河南工程学院

学报, 2009(21):52-55.

[6] 马凤鸣. 假设检验方法分析及应用[J]. 长春大学学报, 2012(22): 188-194. [7] 任永泰. 关于假设检验中原假设的提出[J]. 大学数学,2005(5): 121-124. [8] 苏再兴. 假设检验中原假设与备择假设的关系[J]. 高校讲坛, 2010(21): 623-946. [9] 张小天. 显著性水平的含义[J]. 社会学研究, 1997(2): 31-36.

[10] 樊冬梅. 假设检验中的 P 值[J]. 郑州经济管理学报, 2002(17): 71-72.

[11] 何平平. 置信区间与假设检验关系中的一个误区[J]. 北京大学医学部, 2004(17):

77-81.

[12] 周静. SPSS在数学建模中的应用实例[J]. 天津职业院校联合学报, 2012(14): 93-97. [13] 郭辉. 回归分析方法在《市场营销》课程的教学思路及案例解析[J]. 重庆第二师范

学院学报, 2014(27): 87-92.

[14] 何正风. MATLAB概率与数理统计分析[M]. 北京: 机械工业出版社, 2012. [15] 中国统计年鉴[EB/OL].

http://www.stats.gov.cn/tjsj/ndsj/2014/indexch.htm

[16] 冯国生. SPSS统计分析与应用[M]. 北京: 机械工业出版社, 2014.

东北大学秦皇岛分校毕业设计(论文) 第 32 页

附 录

译文1 Karl Pearson and the Establishment of Mathematical

Statistics

At the end of the nineteenth century, the content and practice of statistics underwent a series of transitions that led to its emergence as a highly specialized mathematical discipline. These intellectual and later institutional changes were, in part, brought about by a mathematical-statistical translation of Charles Darwin’s redefinition of the biological species as something that could be viewed in terms of populations. Weldon’s work on the shore crab in Naples and Plymouth from 1892 to 1895 not only brought them into the forefront of ideas of speciation and provided the impetus to Pearson’s earliest statistical innovations, but it also led to Pearson shifting his professional interests from having had an established career as a mathematical physicist to developing one as a biometrician. The innovative statistical work Pearson undertook with Weldon in 1892 and later with Francis Galton in 1894 enabled him to lay the foundations of modern mathematical statistics. While Pearson’s diverse publications, his establishment of four laboratories and the creation of new academic departments underscore the plurality of his work, the main focus of his life-long career was in the establishment and promulgation of his statistical methodology.

The celebration of Karl Pearson’s 150-thbirthday led to two commemorations in 2007.Theone in March was sponsored by the Royal Statistical Society in London while the one in July was for the International Statistical Institute’s biennial meeting held in Lisbon. We commemorated his legacy as a statistician and as the principal person who established what many statisticians regard as the first phase of modern mathematical statistics. Pearson was a prodigious and consummate literary polymath whose quest for philosophical, spiritual, and numerical truth was his lifelong odyssey. As a student of the Cambridge Mathematics Tripos system, Pearson learned to use applied mathematics as a pedagogical tool for determining the truth; that is, ―one that provided the standards and the means of producing reliable knowledge‖ (Warwick, 2004). This training set him on his life-mission to find the truth. When he did not find this truth in religion, literature, or mathematical physics, he began to look for the truth in statistics, especially in the geometry of statistics. Nevertheless, Pearson (20 June 1879) also realized that the ―truth is relative‖ and‖ what is the truth for one man may be the untruth for someone else‖.

Pearson’s ―arresting‖ appearance was characterised by a former student (Anon, 1936) as

东北大学秦皇岛分校毕业设计(论文) 第 33 页

a‖ typical Greek athlete, with finely cut features, crisp curly hair and a magnificent physique‖—reaching a height of six feet (Pearson, 8 June 1877). Even as an older gentleman, Constance Reid (1982) thought he resembled ―an old English duke with a wonderful face [who] was an extremely beautiful old man‖. He was regarded as a pertinacious conversationalist, and in any personal discussion his humorous twinkle with his grey eyes was disarming. Though he fought for the acceptance of his statistical methodology and sometimes found it hard to see both sides of an academic argument, he eschewed intellectual debates and quite often relied on the Darwinian zoologist, W.F.R. Weldon (1860–1906) to defend him from the trenchant attacks of others.

By the time Pearson (1877) was 22, he had ―definitely rejected Christianity perhaps more from disgust of its profession than of real knowledge of its virtues and vices‖. He subsequently adopted ―free thought‖ as a nonreligious faith that was grounded in science, and distinguished his views from a ―freethinker‖ who was a person who formed opinions about religion on the basis of reason without recourse to authority or established beliefs (Porter 2004, p. 108). His socialist outlook was similar to the Fabians (Mackenzie, 1981) who encouraged gradual changes in society rather than Marxist revolutions. Nevertheless, Pearson never joined the Fabian Society, despite the requests from Sidney and Beatrice Webb in 1885. Socialism was a form of morality for Pearson (19 March 1912); the moral was social and the immoral was anti-social in conduct. It was the interplay between his energetic drive, his educational training from the Cambridge Mathematics Tripos system and his intellectually intimate relationship with Weldon, which enabled Pearson to create a new methodology that became the cornerstone of modern mathematical statistics.

卡尔·皮尔森和数理统计的建立

在19世纪的结束,统计数据的内容和实践经历了一系列的转变,导致了它的出现作为一个高度专业化的数学学科。这些知识和制度变迁之后,带来的数理统计翻译在某种程度上,查尔斯达尔文的生物物种重新定义可以观看的人群。韦尔登的工作在岸边蟹在那不勒斯和普利茅斯从1892年到1895年,不仅将他们带入的前沿思想的物种形成和皮尔森最早的统计创新提供了动力,但同时也导致了皮尔森将他的职业利益从有一个既定的职业生涯作为一个数学物理学家发展作为动物统计学家之一。创新统计工作皮尔森进行了1892年与韦尔登在1894年与弗朗西斯·高尔顿,后来使他现代数理统计的奠定基

东北大学秦皇岛分校毕业设计(论文) 第 34 页

础。在培生各种各样的出版物,建立四个实验室和创建新的学术部门强调多元化的工作,他的终身事业的主要焦点是在建立和公布他的统计方法。

卡尔·皮尔森的诞辰150周年导致两个2007年纪念活动。在3月时由伦敦皇家统计学会国际统计研究所的一个7月在里斯本举行的两年一次的会议。我们纪念他的遗产作为统计学家和校长的人建立了许多统计学家认为现代数理统计的第一阶段。皮尔森是一个庞大和完善文学博学的追求哲学的精神,和数值的真相是他一生的奥德赛。作为剑桥大学的一个学生的数学考试中系统,皮尔森学会应用数学作为一种教学工具用于确定真相;也就是说,“提供的标准和手段,生产可靠的知识”(华威,2004)。这个训练集他的人生使命找到真相。当他没有发现这个真理在宗教、文学、或数学物理,他开始寻找真相的统计数据,尤其是在几何数据。不过,皮尔森(1879年6月20日)也意识到“真理是相对的”和“什么是一个人的真相可能是别人的谎言”。

皮尔森的“逮捕”外表的特征是学生(不久,1936)作为“典型的希腊运动员,精细切割特性,脆的卷发和宏伟的体格”达到六英尺高(皮尔森,1877年6月8日)。即使一个年长的绅士,康斯坦斯里德(1982)认为他就像“一个古老的英语公爵用美妙的脸是一个非常美丽的老人”。他被认为是一个顽固的健谈的人,在任何个人讨论他的幽默和他的灰色眼睛闪烁被解除。尽管他接受他的统计方法,有时发现很难看到双方的学术争论,他有意避开知识辩论和经常依赖于达尔文的动物学家,W.F.R.韦尔登(1860 - 1906)为他辩护的犀利攻击别人。

皮尔森(1877)22岁的时候,他“绝对拒绝基督教或许更从厌恶的职业比真正的知识的美德和恶习”。他随后采用“自由思想”作为一个非宗教的信仰,是建立在科学和杰出的他的观点“自由思想家”的人的基础上形成了对宗教的看法原因不诉诸于权威或建立信仰(波特2004年,p . 2004)。他的社会主义前景类似误解(Mackenzie,1981)鼓励逐步改变社会而不是马克思主义革命。不过,皮尔森从未加入了费边社,尽管从1885年西德尼和比阿特丽斯韦伯的请求。社会主义是一种道德培生(1912年3月19日),道德是社会和不道德的是反社会的行为。二者之间的相互作用,他精力充沛,他从剑桥的数学考试中系统教育培训与韦尔登和他的智力上的亲密关系,使皮尔逊创建一个新的方法,成为现代数理统计的基础。

东北大学秦皇岛分校毕业设计(论文) 第 35 页

译文2 Drawing the Boundaries: Mathematical Statistics in

20th-Century America

Statistics in Europe and in the United States acquired the status of a separate field only in the 20th century. Until then, it had provided a quantitative tool for analyzing data in various sciences. In the early 1930s, the founding of the Annals of Mathematical Statistics and of the Institute of Mathematical Statistics served to institutionalize the profession of mathematical statistics in the United States, and helped to distinguish it as a discipline independent from the social sciences which had previously supported it. This paper examines the American mathematical statisticians’ attempts to delineate the boundaries of their profession, focusing on their association with the social sciences, on the founding of the Annals and of the IMS,and on the profession’s continuing advancement during World War II.

For some time there has been a feeling that the theory of statistics would be advanced in the United States by the formation of an organization of those persons especially interested in the mathematical aspects of the subject. As a consequence, a meeting of interested persons was arranged for September 12, 1935, at Ann Arbor, Michigan. At the meeting, it was decided to form an organization to be known as the Institute of Mathematical Statistics. The event heralded by this proclamation declared the existence of what was becoming a scientific community, an association of scholars who defined their field of study as distinct from other subjects, and who institutionalized their means of sharing ideas with one another.

The last two decades of the 19th century had already seen the formation of the major academic disciplines in the United States. In fields as disparate as chemistry, economics, and mathematics, practitioners had begun to pursue more specialized studies, had organized national associations and publications, and had established academic departments in major research universities. As the process of specialization continued into the 20th century, subspecialties emerged and professionalized by a process similar to that followed by their parent disciplines. In particular, the case of mathematical statistics highlights the critical role played in this process by the founding of a journal and a national association.

Major disciplines in the humanities and in the natural and social sciences had formed national organizations and begun journals by the turn of the century, each with slightly different needs in mind. Although it initially placed some emphasis on pedagogical problems when it was founded in 1886, the Modern Language Association quickly shifted its focus to promoting scholarship in order to gain legitimacy for its disciplines in the domain of higher education [50; 67]. In the natural sciences, publications such as the American Journal of

本文来源:https://www.bwwdw.com/article/73s.html

Top