统计学本科毕业论文初稿 ——Excel 在多元回归分析中的应用研究

更新时间:2024-05-10 04:20:01 阅读量: 综合文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

Excel 在多元回归分析中的应用研究

第一章绪论

统计学是一门提供数据信息的收集、处理、归纳和分析的理论与方法的科学。然而随着社会的发展,统计的运用领域越来越广泛,不管是在经济管理领域,还是在军事、医学、生物、物理、化学等领域的研究中人们对于数量分析与统计分析都提出更高的要求。统计学作为高等院校经济类专业和工商管理类专业的核心课程,需要用到的数学知识较多,应用方面的灵活性也较强,计算量大且复杂。而Excel是以其入门简单、使用直观、操作方便和功能强大等特点为广大用户所喜爱,在数据处理相关领域中Excel更是有大量的受众。Excel系统中含有许多常用的统计分析方法,但大多数人由于缺乏基本的统计知识,对此望而却步。

1.1摘要

网络购物则是给传统的零售产业带来了巨大而深远的影响,近几年越来越多的人通过当当、京东、淘宝这样的互联网平台进行交易,网络购物的兴起给人们带来了极大的便利和实惠。淘宝网则是亚太最大的网络零售商圈,其致力于打造领先网络零售商圈,淘宝注册成员也覆盖了中国大部分网购人群,交易额占中国网络市场的80%。本文不仅对于复杂的统计计算通过常用的计算机应用软件Excel来实现,同时通过对淘宝网的交易额与当今社会的发展现状相结合进行研究,通过Excel做多元线性回归分析,让大家对统计中的多元回归有所了解的同时,也可以了解到淘宝网近年来的发展情况 以及未来的发展趋势。本文通过实例对淘宝网未来发展趋势的研究运用通俗的语言和浅显的描述将Excel在多元回归分析中的统计分析方法呈现在大家面前,并采用了2005年到2012年的居民消费水平,以及我国网络普及度,我国人人均纯收入以及我国的居民消费水平对淘宝网的未来发展趋势进行定量数据的研究而后提出我们对于淘宝未来发展趋势的预测和应对之策。同时本文也运用了Spss和Eviews软件对数据进行分析,从而把起与Excel对数据进行处理的方法进行对比,找出Excel对于数据处理很分析相对于Spss和Eviews之间的差别及优点,最后得出结论。

关键词:Excel 多元回归分析 淘宝网 SPSS Eviews

1.2引言

我国网络购物相对欧美起步较晚,但发展速度非常快。但随着我国社会主义市场经济的日趋完善,无论是在宏观经济的经济调控领域还是在微观的企业管理领域中,人们要进行高效的监控和科学的管理就必须准确及时的获得经济运行中的各类信息。淘宝网自2003年5月10日成立以来,在短短的两年内,迅速成为国内网络购物平台的第一名,占据了中国网络购物的70%左右的市场份额。然而2008年以来,受到全球金融危机蔓延深化的影响,我国多数行业都

受到了不同程度的冲击。但包括网络零售的电子商务行业发展却一路繁荣,成为危机背景下经济增长的一个亮点。而网上购物作为一种新兴的购物方式出现在日常百姓的生活中,必然有其吸引人之处。 喜欢上网购物的网民认为,用互联网来完成购物不仅节省了时间,免除了舟车劳顿,还有机会买到在本地市场难觅的商品。当然网上购物有利有弊,网购的利在于: 1.节省时间,精力

2.有机会买到本地市场难觅的商品 3.是一种时尚的方式 4.可以货比三家

5.价格相对市面上的同样商品优惠

6.选购当时最流行,最淘宝热卖的商品

人们通过淘宝购物可以买到比在实体店更便宜的商品。这也恰恰反映了商家对低成本交易的渴望,同时也反映了消费者对低价格的渴望。 网上购物的弊在于: 1.质量难以保证 2.无法预先体验商品

3.网络安全性存在隐患,担心被人恶意侵犯隐私和被盗银行帐号和密码 4.物流方工作不到位导致货物没有及时到达或者根本收不到

所以在这个飞速发展的时代,淘宝作为网络购物的巨头面临了很大的挑战,本文采用淘宝举例一是了解Excel做多元回归分析的方法,二是找到Excel做多元回归分析的优点及便利之处,三是让大家对Excel,Spss和 Eviews软件之间的差别同时更好的运用Excel在统计数据方面的应用,同时还可以研究淘宝的未来发展趋势从而用淘宝网的现状作为实例进行研究和探讨以获得更好的发展趋势,如今网络购物普及全国,本文不仅让读者在学习Excel统计方面的知识的并且学到了多元回归分析的其他统计方法,同时也能了解到一些淘宝的未来发展现状,对其购物也有一定的帮助。

1.3回归分析的概述 1.3.1回归分析的概念

回归分析是确定两种或两种以上变数间相互依赖的定量关系的一种统计分析方法(即寻找具有相关关系的变量减的数学表达式并进行统计推断的一种统计方法)。运用十分广泛,回归分析按照涉及的自变量的多少,可分为一元回归分析和多元回归分析;按照自变量和因变量之间的关系类型,可分为线性回归分析和非线性回归分析。如果在回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析。如果回归分析中包括两个或两个以上的自变量,且因变量和自变量之间是线性关系,则称为多元线性回归分析。

回归分析的主要内容为:

①从一组数据出发,确定某些变量之间的定量关系式,即建立数学模型并估计其中的未知参数。估计参数的常用方法是最小二乘法。

②对这些关系式的可信程度进行检验。

③在许多自变量共同影响着一个因变量的关系中,判断哪个(或哪些)自变量的影响是显著的,哪些自变量的影响是不显著的,将影响显著的自变量选入模型中,而剔除影响不显著的变量,通常用逐步回归、向前回归和向后回归等方法。

④利用所求的关系式对某一生产过程进行预测或控制。回归分析的应用是非常广泛的,统计软件包使各种回归方法计算十分方便。

在回归分析中,把变量分为两类。一类是因变量,它们通常是实际问题中所关心的一类指标,通常用Y表示;而影响因变量取值的的另一类变量称为自变量,用X来表示。

1.3.2回归分析研究的主要问题

(1)确定Y与X间的定量关系表达式,这种表达式称为回归方程; (2)对求得的回归方程的可信度进行检验; (3)判断自变量X对因变量Y有无影响; (4)利用所求得的回归方程进行预测和控制。 1.3.3回归分析的应用

相关分析研究的是现象之间是否相关、相关的方向和密切程度,一般不区别自变量或因变量。而回归分析则要分析现象之间相关的具体形式,确定其因果关系,并用数学模型来表现其具体关系。比如说,从相关分析中我们可以得知“质量”和“用户满意度”变量密切相关,但是这两个变量之间到底是哪个变量受哪个变量的影响,影响程度如何,则需要通过回归分析方法来确定。

一般来说,回归分析是通过规定因变量和自变量来确定变量之间的因果关系,建立回归模型,并根据实测数据来求解模型的各个参数,然后评价回归模型是否能够很好的拟合实测数据;如果能够很好的拟合,则可以根据自变量作进一步预测。

1.4国内外研究现状

Excel 是 微软公司的办公软件Microsofit office的组件之一,是微软办公套装软件的一个重要的组成部分,它可以进行数据的处理统计分析和辅助决策操作,广泛的应用于管理、统计财经、金融等众多领域。您可以使用 Excel 创建工作簿(电子表格集合)并设置工作簿格式,以便分析数据和做出更明智的业务决策。特别是,您可以使用 Excel 跟踪数据,生成数据分析模型,编写公式以对数据进行计算,以多种方式透视数据,并以各种具有专业外观的图表来显示数据。简而言之:Excel是用来更方便处理数据的办公软件。

Excel 统计功能是一种与Microsofit office 的套装软件信息共享综合性强且大众化的统计软件。运用它既可节省时间,又能减少在计算机操作技能和经济条件方面所受到的限制,发挥计算机和网络强大的经济统计图表及数据采集、储存、传输、处理和表现能力,把经济数据加工成经济信息,深化认识,增进经济学的理论性并促进统计方法在经济及其管理中的广泛应用。

目前是微软在线社区联盟成员,同时也是全球最大的华语Excel资源网站,拥有大量原创技术文章、Addins加载宏及模板。Excel Home汇聚了中国大陆及港台地区的众多Office(特别是Excel)高手,他们都身处各行各业,并身怀绝技!在他们的热心帮助之下,越来越多的人取得了技术上的进步与应用水平的提高,越来越多的先进管理思想转化为解决方案被部署,同时,越来越多的人因此而加入了互相帮助,共同进步的阵营。

无论您是在校学生,普通职员还是企业高管,都将能在这里找到您所需要的。通过学习运用Office这样的智能平台,您可以不断拓展自己的知识层面,也可以把自己的行业知识快速转化为生产力,创造价值。

在科学技术飞速发展的今天,统计学广泛吸收和融合相关学科的新理论,不断开发应用新技术和新方法,深化和丰富了统计学传统领域的理论与方法,并拓展了新的领域。今天的统计学已展现出强有力的生命力。在我国,社会主义市场经济体制的逐步建立,实践发展的需要对统计学提出了新的更多、更高的要求。随着我国社会主义市场经济的成长和不断完善,统计学的潜在功能将得到更充分更完满的开掘。 1.5本文研究的主要内容

第一章绪论

简述多元回归分析的概念、背景、研究的意义和研究概况。并介绍课题研究的主要内容及论文章节安排。

第二章数据的来源和变量的选取

分析数据的来源和变量的选取理由,建立预测的模型、回归模型的参数估计以及求解。

第三章多元回归分析的建模与检验

用Excel,Spss和 Eviews对数据进行相关性分析,进行建模和估计,做线性回归分析方差分析,确定预测值。

第四章结果及分析

对上述的Excel,Spss和 Eviews对数据建立的模型进行分析,对数据进行显著性检验,修正拟合模型以及对数据进行预测。

第五章Excel,Spss和 Eviews操作方法对比及总结

对本文的研究工作进行概括和总结。并对延续性课题提出自己的观点和意见。

第二章数据的来源和变量的选取

2.1数据的来源 及变量的选取理由

为了研究淘宝网未来发展趋势,本文从新浪官方微博淘宝数据魔方中获得淘宝2009年聚划算中购物群众的年龄比例作为定性数据,进行研究年龄对淘宝购物的影响。并在新浪财经网上获得淘宝网自2005年到2012年的淘宝交易额以及淘宝注册人数的数据。在中商情报局里获得我国近网络普及度等数据。并从国家统计年鉴中选取统计指标居民消费水平和人均纯收入,其中人均收入(x4)是通过城镇人均收入,城镇人口总数,农村人均纯收入,农村人口总数和我国总人口数计算出来。 计算公式为:

人均收入=(城镇人口总数*城镇人均收入+农村人口总数*农村人均纯收入)/总人口数 如下图:(人均收入保留了两位小数)

这里人均收入是指我国 居民平均每人每年的人均纯收入,这反映了我国居民工资在逐年的增加,收入的增加,加上消费水平的增加,所以收入的增加与网络消费在一定程度上也有很大的联系,在这里用人均收入的增加来反映了可支配收入的增加,那么居民用于消费的部分也增加了。

淘宝注册人数(x1)在一定程度上反应了网络购物的群众的人数,反应了当今社会网络购物的普遍性。同时淘宝的注册人数也展现了人们对网络购物的认可度,换言之也就是说接受了网络购物并会在网上进行消费,是对网络购物很大程度上的支持。

我国网络普及度(x2)是指我国近几年网络在我国普及的范围,这一块更好的反映了网络对居民网络消费的影响,因为网络是网络消费的必要条件。我国网络普及度反映的是在我国日趋发展的经济下,网络也得到了普遍的广泛,人们对网络的接受程度,信任程度也是直接影响到淘宝的网络购物。

居民消费水平(x3)是指居民在物质产品和劳务的消费过程中,对满足人

由回归统计表可以得到以下几个部分。 1.Multiple R(复相关系数R):是R2的平方根,又称为相关系数,是用来衡量x和y之间相关程度的大小。这里的R=0.99791496,表示了他们之间是正相关的关系。

2.R Square(复测定系数R2):用来说明自变量解释因变量变差的程度,以测定因变量y的拟合度。这里的R2=0.995834268,表现了自变量与因变量之间的拟合效果很好。复相关系数作为一个检验总的回归效果的一个指标,在这里说明了数据之间的拟合度很好,回归效果也很好。 3.Adjusted R Square(调整复测定系数R2):用于加入独立变量后模型的拟合程度,这里的调整复测定系数为0.990279958,说明该多元回归中,加入独立变量后,模型的拟合度很好。

4.标准误差:是用来衡量拟合程度的大小的,标准误差越小说明拟合程度约好,这里的标准误为4.20449866,说明模型的拟合程度很好。

5.观测值:这里的观测值为8,说明用来估计回归方程的数据的观测值为8个。

以上为方差分析表,其主要重用是通过F检验来判断回归模型的回归效果。“回归分析”行计算的是估计值同均值之差的各项指标;“残差”行是用于计算每个样本观测值与估计值之差的各项指标;“总计”行用于计算每个值同均值之差的各项指标。由方差分析表可知:

Df是自由度,这里的回归分析的自由度为4,残差的自由度为3。回归分析的离差平方和为12677.84455,残差的离差平方和为53.03342694;回归分析的均方差(即离差平方和除以自由度)为3169.461138,残差的均方差为17.67780898;F统计量为179.2903827,Significance F是在显著性水平下F的临界值,其为0.000670487。

以上为回归参数表,其主要用于回归方程的描述和回归参数的推断。其中第一列分别为?0(截距)和?1,?2,?3,?4(斜率)的各项指标。得到如下的回归方程(所有取值保留两位小数):

y??46.02?3.07x1?18.06x2?62.11x3?120.78x4

3.2 SPSS多元回归分析 3.2.1相关分析

(1)对y与各个变量作出散点图

淘宝注册人数x1与y的相关性散点图:

网络普及度与淘宝网交易总额的相关性检验:

我国居民消费水平与淘宝交易的相关性检验:

我国人均收入与淘宝交易的相关性检验:

由以上四个散点图可知,其所有的点均落在了左上至右下的一条直线上,表明了数据之间存在完全正相关关系。所以我们还需要对数据进行进一步的分析,得到确切的答案。

(2)计算相关系数

用SPSS对数据进行相关性分析,得到如下的相关系数图

解析:图中有带“**”号的结果表明有关的两变量在0.01的显著性水平下显著相关,由上图可知,y与x1的相关系数为0.992>0,表示呈一定的线性关系,相关系数检验对应的概率P值为0.000,小于显著性水平0.05,说明淘宝交易额与淘宝注册人数之间相关性显著。y与x2的相关系数为0.901>0,表示呈一定的线性关系,相关系数检验对应的概率P值为0.002,小于显著性水平0.05,说明淘宝交易额与我国网络普及度之间相关性显著。y与x3的相关系数为0.965>0,表示呈一定的线性关系,相关系数检验对应的概率P值为0.000,小于显著性水平0.05,说明淘宝交易额与居民消费水平之间相关性显著。y与x4的相关系数为0.958>0,表示呈一定的线性关系,相关系数检验对应的概率P值为0.000,小于显著性水平0.05,说明淘宝交易额与我国人均纯收入之间相关性显著。 3.2.2回归分析

解析:复相关系数为0.998,判定系数为0.996,调整系数为0.991,估计值的标准误差为2.115 。

解析:F统计量的值对应的概率P值为0.001,小于显著性水平0.05,所以拒绝原假设,即:淘宝交易总额y与淘宝网注册人数x1、我国网络普及度x2、我国居民消费水平x3和我国居民人均收入x4之间存在线性关系。所以可认为所建立的回归方程有效。

解析:由上图可知,因变量y与常数项和自变量x1,x2,x3,x4的回归的标准化回归系数分别为-41.892,3.160,-17.213,-73.861和127.881。4个回归系数B的显著性水平x1小于0.05,这里可以认为自变量x1对因变量y有显著性影响。SPSS可以采用主成分分析方法把数据进行对比淘汰,最后选出对因变量影响显著的变量。这里是研究的多元回归分析,所以并没有吧主成分分析方法采用到里面。这也是Excel里没有的一个分析方法,不能准确的知道解释变量对被解释变量的影响。

于是,回归方程为:

y??41.892?3.160x1?17.213x2?73.861x3?127.881x4

3.3Eviews多元回归 3.3.1

3.2.1相关分析

(1)对y与各个变量作出散点图

淘宝注册人数x1与y的相关性散点图:

1201008060Y40200051015X1

202530网络普及度与淘宝网交易总额的相关性检验:

1201008060Y40200012X2345 我国居民消费水平与淘宝交易的相关性检验:

1201008060Y402000.81.21.6X32.02.42.8 我国人均收入与淘宝交易的相关性检验:

1201008060Y402000.81.21.6X42.02.42.8 由以上四个散点图可知,其所有的点均落在了左上至右下的一条直线上,表明了数据之间存在完全正相关关系。所以我们还需要对数据进行进一步的分析,得到确切的答案。

实验结果:模型估计的结果可表示为

Yt??46.02?3.07x1?18.06x2?62.11x3?120.78x4

(28.81921) (0.956484) (6.326504) (163.3445) (144.6256) t=(-1.596894) (3.206068) (4.902030) (-2.854229) (0.835118) R=0.995834 R? 0.990280 F=179.2904 df=6 模型检验:可决系数 R=0.995834 ,说明整体拟合度很好。 显著性检验:F检验:H0:?1??2?0

在给定的??0.05,自由度k=2,n-k-1=5,查表得F??5.79 由于 F= 179.2904 > F??5.79

说明回归方程显著,即淘宝网注册人数x1、我国网络普及度x2、我国居民消费水

22?2平x3和我国居民人均收入x4等变量联合起来对淘宝交易总额y有显著的影响。

t检验:在给定的??0.05,自由度n=8-2=6的临界值时,查表得t0.0256?2.447

因为x1,x2,x3的参数对应的t统计量的绝对值均大于2.447,这说明5%的显著性水平下,斜率系数均显著不为0,表明淘宝网注册人数x1、我国网络普及度x2、我国居

民消费水平x3等变量联合起来对该商品的消费支出有显著的影响。

第四章:Excel,SPSS和 Eviews操作方法对比及总结 4.1Excel,SPSS和 Eviews多元回归分析中操作方法 4.1.1 Excel的操作方法

1、建立散点图,确定大致的线性关系(这里用的excel2007),“插入界面”散点图,选择y和x1的数据所属区域,点击散点图里的数点添加趋势线,可以得出该解释变量与被解释变量的趋势线,以及得到一元线性公式。其他解释变量采用的方法同上。

2、点击菜单栏的数据,点击数据分析选择相关系数,可以计算出解释变量与被解释变量之间的相关系数。

3、点击数据分析选择回归,就可以得到解释变量与被解释变量之间的回归系数值。

4.1.2 SPSS的操作方法

4.1.3 Eviews的操作方法

1、建立y和x1的数据组,object——new object——group——输入“x1 y”把数据建立在

一个组内。然后view——graph——scatter——simple scatter,同上诉一样建立“x2 y”、“x3 y”、“x4 y”的关系

2、object——new object——equation——在弹出的对话框里输入“y c x1 x2 x3 x4”点击

ok。

4.2对比及总结

SPSS是专业统计分析软件 可以使用各种计算方法进行一元、多元统计分析。 EXCEL只具备简单的统计分析功能。 SPSS相对于Excel的优点:

SPSS除了数据录入及部分命令程序等少数输入工作需要键盘键入外

1、对于常见的统计方法,SPSS的命令语句、子命令及选择项的选择绝大部分由“对话框”的操作完成。因此,用户无需花大量时间记忆大量的命令、过程、选择项。 2、

SPSS的Excel缺点:

1、SPSS除了数据录入及部分命令程序等少数输入工作需要键盘键入。

只要了解统计分析的原理,无需通晓统计方法的各种算法,即可得到需要的统计分析结果。

3功能强大:具有完整的数据输入、编辑、统计分析、报表、图形制作等功能。自带11种类型136个函数。SPSS提供了从简单的统计描述到复杂的多因素统计分析方法,比如数据的探索性分析、统计描述、列联表分析、二维相关、秩相关、偏相关、方差分析、非参数检

验、多元回归、生存分析、协方差分析、判别分析、因子分析、聚类分析、非线性回归、Logistic4

方回

便

等接

。 :

能够读取及输出多种格式的文件。比如由dBASE、FoxBASE、FoxPRO产生的*.dbf文件,文本编辑器软件生成的ASCⅡ数据文件,Excel的*.xls文件等均可转换成可供分析的SPSS数据文件。能够把SPSS的图形转换为7种图形文件。结果可保存为*.txt及html格式的文件

5、 灵活的功能模块组合:SPSS for Windows软件分为若干功能模块。用户可以根据自己的分析需要和计算机的实际配置情况灵活选择。 EXCEL不是数据库 只是表格而已

SPSS,SAS是专业的统计分析软件,比如EXCEL也能进行相关分析,但它只是把相关系数给出,而SPSS和SAS不进不仅能计算出相关系数,范围和检验等等,excel的强大在于它的函数,目前一般人把它当表格使用,学好了函数后一般的数据比较都可以做了。然后就是编制模板,编好公式,透视表等。如果没有容量限制的话,绝大部分的数据比较和分析都可以完成。

参考文献:梁烨,柏芳,李嫣怡 等,Excel统计分析与应用 . 机械工业出版社 2011年9月第一版第一次印刷

王鸿儒 Excel在统计学中的应用。 中国铁道出版社 2004年6月 第2次印刷 商熠农 Excel在统计分析中的应用 机械工业出版社 2010年1月第一版第一次印刷

验、多元回归、生存分析、协方差分析、判别分析、因子分析、聚类分析、非线性回归、Logistic4

方回

便

等接

。 :

能够读取及输出多种格式的文件。比如由dBASE、FoxBASE、FoxPRO产生的*.dbf文件,文本编辑器软件生成的ASCⅡ数据文件,Excel的*.xls文件等均可转换成可供分析的SPSS数据文件。能够把SPSS的图形转换为7种图形文件。结果可保存为*.txt及html格式的文件

5、 灵活的功能模块组合:SPSS for Windows软件分为若干功能模块。用户可以根据自己的分析需要和计算机的实际配置情况灵活选择。 EXCEL不是数据库 只是表格而已

SPSS,SAS是专业的统计分析软件,比如EXCEL也能进行相关分析,但它只是把相关系数给出,而SPSS和SAS不进不仅能计算出相关系数,范围和检验等等,excel的强大在于它的函数,目前一般人把它当表格使用,学好了函数后一般的数据比较都可以做了。然后就是编制模板,编好公式,透视表等。如果没有容量限制的话,绝大部分的数据比较和分析都可以完成。

参考文献:梁烨,柏芳,李嫣怡 等,Excel统计分析与应用 . 机械工业出版社 2011年9月第一版第一次印刷

王鸿儒 Excel在统计学中的应用。 中国铁道出版社 2004年6月 第2次印刷 商熠农 Excel在统计分析中的应用 机械工业出版社 2010年1月第一版第一次印刷

本文来源:https://www.bwwdw.com/article/dnrg.html

Top