回归分析课后习题

更新时间:2024-01-24 23:34:01 阅读量: 教育文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

第一章 习题

1.1 变量间统计关系和函数关系的区别是什么? 1.2 回归分析与相关分析的区别和联系是什么? 1.3 回归模型中随机误差项的意义是什么? 1.4 线性回归模型中的基本假设是什么?

1.5 回归变量设置的理论依据是什么?在设置回归变量时应注意哪些问题? 1.6 收集、整理数据包括哪些基本内容? 1.7 构造回归理论模型的基本依据是什么? 1.8 为什么要对回归模型进行检验? 1.9 回归模型有哪几个方面的应用?

1.10 为什么强调运用回归分析研究经济问题要定性分析和定量分析相结合?

第二章 习题

2.1一元线性回归模型有哪些基本假定? 2.2 考虑过原点的线性回归模型

yi??1xi??i,i?1,误差?1,,n

,?n仍满足基本假定。求?1的最小二乘估计。

2.3证明(2.27)式,

?ei?1ni?0,?xiei?0。

i?1n2.4回归方程Ey??0??1x的参数?0,?1的最小二乘估计与极大似然估计在什么条件下等价?给出证明。

?是?的无偏估计。 2.5 证明?00?1?x222.6 证明(2.42)式 Var?0???成立 ,??2n??xi?x?????2.7 证明平方和分解式SST?SSR?SSE

2??2.8 验证三种检验的关系,即验证:

?L?n?2r1xx(1)t?; ?2??1?r?2L?SSR1(2)F??12xx?t2

?SSEn?2?2.9 验证(2..63)式:

?1?xi?x?2?2var?ei???1????

Lxx???n?1n22????2.10 用第9题证明?是的无偏估计。 y?y???iin?2i?122.11* 验证决定系数r与F值之间的关系式 r?222F

F?n?2以上表达式说明r与F值是等价的,那么我们为什么要分别引入这两个统计量,而不是只使用其中的一个。

?和??会发生什么变化?2.12* 如果把自变量观测值都乘以2,回归参数的最小二乘估计?01?和??会发生什么变化? 如果把自变量观测值都加上2,回归参数的最小二乘估计?01????x相应的相关系数r很大,???2.13 如果回归方程y则用它预测时,预测误差一定较小。01这一结论成立吗?请说明理由。

2.14为了调查某广告对销售收入的影响,某商店记录了5个月的销售收入y(万元)和广告费x(万元),数据见表,要求用手工计算: 月份 X Y (1) (2) (3) (4)

1 1 10 2 2 10 3 3 20 4 4 20 5 5 40 画散点图

X与y之间是否大致成线性关系 用最小二乘估计求出回归方程

? 求回归标准误差??与??的置信度为95%的区间估计 (5) 给出?01(6) 计算x与y的决定系数

(7) 对回归方程作方差分析 (8) 做回归系数?1显著性的检验

(9) 做相关系数的显著性检验

(10) 对回归方程做残差图并作相应的分析

(11) 求当广告费用为4.2万元时,销售收入将达到多少,并给出置信度95%的置信区间 2.15 一家保险公司十分关心其总公司营业部加班的程度,决定认真调查一下现状。经过10周时间,收集了每周加班工作时间的数据和签发的新保单数目,x为每周签发的新保单数目,y为每周加班工作时间(小时)。见表 周序号 X Y

(1) (2) (3) (4)

1 825 3.5 2 215 1.0 3 1070 4.0 4 550 2.0 5 480 1.0 6 920 3.0 7 1350 4.5 8 325 1.5 9 670 3.0 10 1215 5.0 画散点图

X与y之间是否大致成线性关系? 用最小二乘估计求出回归方程

? 求回归标准误差??与??的置信度为95%的区间估计 (5) 给出?01(6) 计算x与y的决定系数

(7) 对回归方程作方差分析 (8) 做回归系数?1显著性的检验 (9) 做相关系数的显著性检验

(10) 对回归方程做残差图并作相应的分析

(11) 该公司预计下一周签发新保单x0?1000,需要的加班时间是多少。 (12) 给出y0的置信度为95%的精确预测区间和近似预测区间。 (13) 给出Ey0的置信度为95%的区间估计。

2.16* 表2.8 是1985年美国50个州和哥伦比亚特区公立学校中教师的人均年工资y(美元)和对学生的人均经费收入x(美元)。

(1)绘制y对x的散点图,可以用直线回归描述两者之间的关系吗? (2)建立y对x的线性回归。 (3)用线性回归的Plots功能绘制标准残差的直方图和正态概率图,检验误差项的正态性假设。

第三章 习题

3.1 写出多元线性回归模型的矩阵表示形式,并给出多元线性回归模型的基本假设。 3.2 讨论样本量n与自变量个数p的关系,它们对模型的参数估计有何影响?

??3.3 证明?21SSE是误差项方差?2的无偏估计。

n?p?123.4 一个回归方程的复相关系数R=0.99,样本决定系数R?0.9801,我们能判断这个回归方程就很理想吗?

3.5 如何正确理解回归方程显著性检验拒绝H0或接受H0? 3.6 数据中心化和标准化在回归分析中的意义是什么? 3.7 验证(3.52)式

?*??jLjjLyy?,j?1,,p ?j3.8 利用(3.60)式证明(3.61)式成立,即

r12;3?r12?r13r23?1?r??1?r?213223 3.9 证明y与自变量xj的偏决定系数与(3.42)式的偏F检验值Fj是的等价的。 3.10* 验证决定系数与F值之间的关系式 R?2FF??n?p?1?p

3.11 研究货运总量y(万吨)与工业总产值x1(亿元)、农业总产值x2(亿元)、居民非商品支出x3(亿元)的关系。数据见表3.9。 (1)计算出y,x1,x2,x3的相关系数矩阵。 (2)求y关于x1,x2,x3的三元线性回归方程。

(3)对所求得的方程作拟合优度检验。

(4)对回归方程作显著性检验。

(5)对每一个回归系数作显著性检验。

(6)如果有的回归系数没通过显著性检验,将其剔除,重新建立回归方程,再作回归方程的显著性检验和回归系数的显著性检验。

(7)求出每一个回归系数的置信水平位95%的置信区间。 (8)求标准化回归方程。

?0,给定置信水平为95%,用SPSS软件计算精(9)求当x01?75,x02?42,x03?3.1时的y

确置信区间,用手工计算近似预测区间。 (10)结合回归方程对问题做一些基本分析。

3.12* 用表3.10的数据,建立GDP对x1,x2的回归。对得到的二元回归方程

??2914.6?0.607x1?1.709x2,你能够合理的解释两个回归系数吗?如果现在不能给出y合理的解释,不妨在学过第6章多重共线性后再来解释这个问题,在学过第七章岭回归后再来改进这个问题。

第四章 习题

4.1 试举例说明产生异常差的原因。 4.2 异常差性带来的后果有哪些?

4.3 阐述用加权最小二乘法消除一元线性回归中异方差性的思想与方法。 4.4 阐述用加权最小二乘法消除多元线性回归中异常差性的思想与方法。 4.5 验证(4.5)式一元加权最小二乘回归系数估计公式。 4.6 验证(4.8)式多元加权最小二乘回归系数估计公式。 4.7 有同学认为当数据存在异常差时,加权最小二乘回归方程与普通最小二乘回归方程之间必然有很大的差异,异常差越严重,两者之间的差异就越大。你是否同意这位同学的观点?说明原因。

??4.8 对例4.3的数据,用公式eiw?,绘制加权变换残差图,wieiw计算出加权变换残差eiw根据绘制出的图形说明加权最小二乘回归估计的效果。

4.9 参见参考文献[2],表4.11是用电高峰每小时用电量y与每月总用电量x的数据。 (1)用普通最小二乘法建立y与x的回归方程,并画出残差散点图。 (2)诊断该问题是否存在异常差。

(3)如果存在异常差,用幂指数型的权函数建立加权最小二乘回归方程。 (4)用方差稳定性变换y??y消除异方差。

4.10 试举一可能产生随机误差项系列相关的经济例子。 4.11 序列相关性带来的严重后果是什么? 4.12 总结DW检验的优缺点。

4.13 表4.12中是某软件公司月销售额数据,其中,x为总公司的月销售额数据(万元);y为某分公司的月销售额(万元)。

(1)用普通最小二乘法建立y与x的回归方程。 (2)用残差图及DW检验诊断序列的自相关性。 (3)用迭代法处理序列相关,并建立回归方程。 (4)用一阶差分法处理数据,并建立回归方程。 (5)比较以上各方法所建回归方程的优良性。

4.14* 某乐队经理研究其乐队CD盘的销售额(y),两个有关的影响变量是每周演出场次x1和乐队网站的周点击率x2,数据见表4.13.

(1)用普通最小二乘法建立y与x1,x2的回归方程,用残差图及DW检验诊断序列的自相关性。

(2)用迭代法处理序列相关,并建立回归方程 (3)用一阶差分法处理数据,并建立回归方程。 (4)比较以上各方法所建回归方程的优良性。 4.15 说明引起异常值的原因和消除异常值的方法。 4.16 对第三章思考与练习第11题做异常值检验。

第五章 习题

5.1 自变量选择对回归参数的估计有何影响? 5.2 自变量选择对回归预测有何影响?

5.3 如果所建模型主要用于预测,应该用哪个准则来衡量回归方程的优劣? 5.4 试述前进法的思想、方法。 5.5试述后退法的思想、方法。

5.6 前进法、后退法各有哪些优缺点? 5.7 试述逐步回归法的思想、方法。

5.8 在运用逐步回归法时,?进与?出的赋值原则是什么?如果希望回归方程中多保留一些自变量,?进应如何赋值?

5.9 在研究国家财政收入时,我们把财政收入按收入形式分为:各项税收收入、企业收入、债务收入、国家能源交通重点建设基金收入、基本建设贷款归还收入、国家预算调节基金收入、其他收入等。为了建立国家财政收入回归模型,我们以财政收入y(亿元)为因变量,自变量如下:x1为农业增加值(亿元);x2为工业增加值(亿元);x3为建筑业增加值(亿元);x4为人口数(万人);x5为社会消费总额(亿元);x6为受灾面积(万公顷)。据《中国统计年鉴》获得1978-1998年共21个年份的统计数据,见表5.5。由定性分析知,所选自变量与变量y有较强的相关性,分别用后退法和逐步回归法做自变量选元。

5.10* 表5.6的数据时1968-1983年间美国与电话线制造有关的数据,各变量的含义如下:

x1——年份;

; x2——国民生产总值(10亿美元); x3——新房动工数(单位:1000); x4——失业率(%)

x5——滞后6个月的最惠利率;

; x6——用户用线增量(%)

y——年电话线销量(百万尺双线);

(1) 建立y对的线性回归方程。 (2) 用后退法选择自变量。 (3) 用逐步回归法选择自变量。

(4) 根据以上计算结果分析后退法与逐步回归法的差异。

第六章 习题

6.1 试举一个产生多重共线性的经济实例。 6.2 多重共线性对回归参数的估计有何影响?

6.3 具有严重多重共线性的回归方程能否用来作经济预测?

6.4 多重共线性的产生与样本量的个数n、自变量个数p有无关系? 6.5 自己找一个经济问题来建立多元线性回归模型,怎样选择变量和构造设计矩阵X才可能避免多重共线性的出现?

6.6 对第5章思考与练习第9题财政收入的数据,分析数据的多重共线性,并根据多重共线性剔除变量,将所得结果与用逐步回归法所得的选元结果相比较。

第七章 习题

7.1 岭回归估计是在什么情况下提出的? 7.2 岭回归估计的定义及其统计思想是什么? 7.3 选择岭参数k有哪几种主要方法?

7.4 用岭回归方法选择自变量应遵从哪些基本原则?

7.5 对第5章思考与练习第9题的数据,逐步回归的结果只保留了3个自变量x1,x2和x5,用y对这3个自变量作岭回归分析。

7.6* 对第3章思考与练习题第12题的问题,分别用普通最小二乘和岭回归建立GDP对第二产业增加值x2和第三产业增加值x3的二元线性回归,解释所得到的的回归系数。 7.7* 一家大型商业银行有多家分行,近年来,该银行的贷款额平稳增长,但不良贷款额也有较大比例的提高。为弄清楚不良贷款形成的原因,希望利用银行业务的有关数据做定量分析,以便找出控制不良贷款的办法。表7.5是该银行所属25家分行2002年的有关业务数据。 (1)计算y与其余4个变量的简单相关系数。

(2)建立不良贷款y对4个自变量的线性回归方程,所得的回归系数是否合理? (3)分析回归模型的共线性。

(4)采用后退法和逐步回归法选择变量,所得回归方程的回归系数是否合理,是否还存在共线性?

(5)建立不良贷款y对4个自变量的岭回归。

(6)对第(4)步剔除变量后的回归方程再做岭回归。

(7)某研究人员希望做y对各项贷款余额、本年累计应收贷款、贷款项目个数这3个自变量的回归,你认为这样做是否可行?如果可行应该如何做?

第8章 习题

8.1* 试总结主成分回归建模的思想与步骤。 8.2* 试总结偏最小二乘建模的思想与步骤。

8.3* 对例5.5的Hald水泥问题用主成分回归方法建立模型,并与其他方法的结果进行比较。 8.4* 对例5.5的Hald水泥问题用偏最小二乘方法建立模型,并与其他方法的结果进行比较。

第9章 习题

9.1 在非线性回归线性化时,对因变量做变换应注意什么问题?

9.2 为了研究生产率与废料率之间的关系,记录了如表9.14所示的数据,请画出散点图,根据散点图的趋势拟合适当的回归模型。

9.3 已知变量x与y的样本数据如表9.15所示,画出散点图,试用来拟合回归模型,假设: (1)乘性误差项y??e?xe?。 (2)加性误差项y??e?x??。

9.4 Logistic回归函数常用于拟合某种消费品的拥有率,表9.16是北京市每百户家庭平均拥有的照相机数,试针对以下两种情况拟合Logistic回归函数

y?11?b0b1tu

(1)已知u=100,用线性化方法拟合。

(2)u未知,用非线性最小二乘方法拟合,根据经济学的意义知道,u是拥有率的上限,初值可取100;b0?0,0?b1?1 初值请读者自己选择。

9.5* 表9.17数据中GDP和投资额K都是用定基居民消费价格指数(CPI)缩减后的,1978年的价格指数为100.

(1)用线性化的乘性误差项模型拟合C-D生产函数。

(2)用非线性最小二乘拟合加性误差项模型的C-D生产函数。

(3)对线性化回归检验自相关,如果存在自相关则用自回归方法改进。 (4)对线性化回归检验共线性,如果存在共线性则用岭回归方法改进。 9.6* 对上题的数据,拟合含有技术进步的C-D生产函数: y?AeKL

其中,e代表技术进步对产出的影响。

(1) 用线性化的乘性误差项模型拟合。

(2) 用非线性最小二乘拟合加性误差项模型做拟合。

(3) 对线性化回归检验自相关,如果存在自相关则用自回归方法改进。 (4) 对线性化回归检验共线性,如果存在共线性则用岭回归方法改进。

?t

?t??

第十章 习题

10.1 一个学生使用含季节性自变量的回归模型,对春夏秋冬四个季节引入四个0-1型自变量,用SPSS软件计算的结果中总是自动剔除了其中的一个自变量,他为此感到困惑不解。出现这种情况的原因是什么?

10.2 对自变量中含定性变量的问题,为什么不对同一属性分别建立回归模型,而采取设虚拟变量的方法建立回归模型?

10.3 研究者想研究采取某项保险革新措施的速度y与保险公司的规模x1和保险公司类型的的关系(参见参考文献[3])。因变量的计量是第一个公司采纳这项革新和给定公司采纳这项革新在时间上先后间隔的月数。第一个自变量公司的规模是数量型的,用公司的总资产额(百万美元)来计量;第二个自变量公司的类型是定性变量,由两种类型构成,即股份公司和互助公司。数据资料见表10.8,试建立y对公司规模和公司类型的回归。

10.4 表10.9的数据时我国历年铁路里程数据,根据散点图观察在1995年(t=16)有折点,用折线回归拟合这些数据。

10.5 某省统计局1990年9月在全省范围内进行了一次公众安全感问卷调查,参考文献[10]选取了调查表中的一个问题进行分析。本题对其中的数据做了适当的合并。对1391人填写的问卷统计“一人在家是否害怕生人来”。因变量y=1表示害怕,y=0表示不害怕。两个自变量:x1是年龄,x2是文化程度。各变量的取值含义如表10.10所示。

现在的问题是:公民一人在家害怕生人来这个事件,与公民的年龄x1、文化程度x2有没有关系?调查数据见表10.11.

其中,pi是根据(10.44)式计算的。

(1) 把公民的年龄x1、文化程度x2作为数量型变量,建立y对x1、x2的Logistic回归。 (2) 把公民的年龄x1、文化程度x2作为定性变量,用0-1型变量将其数量化,建立y对公民的年龄和文化程度的Logistic回归。

(3) 你对回归的效果是否满意?如果不满意,你认为主要的问题是什么?

10.6 研制一种新型玻璃,对其做耐冲击试验。用一个小球从不同的高度h对玻璃做自由落体撞击,玻璃破碎记y=1,玻璃未破碎记y=0.试对表10.12的数据建立玻璃耐冲击性对高度h的Logistic回归,并解释回归方程的意义。

10.7* 数据用SPSS软件自带的数据文件bankloan.sav,该文件在\\SPSS\\tutorial\\sample_files文件夹内。一家银行研究客户拖欠贷款问题,因变量是客户是否曾经拖欠贷款Previously default[default],0=“No”,1=“Yes”。数据文件中共有850条记录,其中前700条记录是过去客户的资料,作为回归的样本。后150条记录是潜在客户的资料,希望用回归预测其拖欠贷款倾向。建立两类别Logistic回归,定性自变量是Level of education[ed],用Categorical按钮指定;数值型自变量是Age in years[age],years with current employer[employ],years at current address[address],Household income in thousands[income],Debt to income ratio[debtinc],Credit card debt in thousands[creddebt]和Other debt in thousands[othdebt]。

10.8* 用SPSS软件自带的数据文件cerea.sav做多类别Logistic回归。这个数据资料来源是

某快餐公司抽取了880名顾客品尝公司的3种早餐套餐,分别是1——Breakfast Bar,2——Oatmeal,3——Cereal。每位顾客从中确定自己最喜欢的套餐,公司记录下顾客的年龄、性别、婚姻状况、健身运动状况。以Preferred breakfast [bfast]为因变量,以定性变量Age category [agecat],Gender [gender],Marital status [marital],Lifestyle [active]为自变量做统计分析。 10.9* 对例10.7,根据输出结果10.14的参数估计表,手工计算出表10.6中前2个样品的预测概率。前2个样品的变量取值

样品号 1 2 ed 4 5 address 9 7 employ 5 5 reside 2 6 10.10* 某学校对本科毕业学生的去向做了一个调查,分析影响毕业去向的相关因素,结果见表10.13,其中毕业去向“1”=工作,“2”=读研,“3”=出国留学。性别“1”=男生,“0”=女生。用多类别Logistic回归分析影响毕业去向的因素。

10.11* 对例10.8信贷风险数据,剔除掉Housing [housing]和Duration in months [duration]两个自变量后重新做回归,分析拟合优度、自变量的显著性,保存预测值,用SPSS的Descriptive Statistics中的Crosstabs做预测值与观测值的交叉列表,分析预测效果。

10.12* 对上面的习题10.11,手工计算前2个样品的预测概率。前2个样品的变量取值是 样品号 1 2 age 67 22 numcred 2 1 othnstal 3 3 因变量chist 5 3

补充(第一版第九章9.4): 某车站装载某种物品的情况如表9.6,其中x表示天数,y表示车厢数。根据散点图观察,在x=5处有折点,求y与x的折线回归。 x(天数) y(车厢数) 1 3 2 6 3 9 4 12 5 15 6 16 7 17 8 18 9 19

备注:*表示第二、三版增加的新题

本文来源:https://www.bwwdw.com/article/coyw.html

Top