SAS 相关与回归模型
更新时间:2023-11-05 22:40:01 阅读量: 教育文库 文档下载
- sas推荐度:
- 相关推荐
相关与回归模型SAS程序
主要内容
1、散点图 2、相关分析
3、一元回归模型建立及检验
4、一元回归模型的拟合图与残差图 5、多元回归模型与数据标准化系数 6、共线性检验(VIF, 7、变量的逐步选择
8、模型的自相关DW检验
相关与回归分析指导
一、散点图
例:一家大型商业银行在多个地区设有分行,其业务主要是进行基础设施建设、国家重点项目建设、固定资产投资等项目的贷款。近年来,该银行的贷款额平稳增长,但不良贷款额也有较大比例的增长,这给银行业务的发展带来较大压力。为弄清不良贷款形成的原因,管理者希望利用银行业务的有关数据进行定量分析,以便找出控制不良贷款的办法。下面是该银行所属的25家分行2002年的有关业务数据
分行编号 1 2 3 4 5 6 7 不良贷款 (y) 0.9 1.1 4.8 3.2 7.8 2.7 1.6 各项贷款余额 (x) 67.3 111.3 173.0 80.8 199.7 16.2 107.4 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 12.5 1.0 2.6 0.3 4.0 0.8 3.5 10.2 3.0 0.2 0.4 1.0 6.8 11.6 1.6 1.2 7.2 3.2 185.4 96.1 72.8 64.2 132.2 58.6 174.6 263.5 79.3 14.8 73.5 24.7 139.4 368.2 95.7 109.6 196.2 102.2
Data e41;
Input x y @@;
Label y=’ 不良贷款 ’ x=’ 各项贷款余额’; Cards ;
0.9 67.3 1.1 111.3 4.8 173.0 3.2 80.8 7.8 199.7 2.7 16.2 1.6 107.4 12.5 185.4 1.0 96.1 2.6 72.8 0.3 64.2 4.0 132.2 0.8 58.6 3.5 174.6 10.2 263.5 3.0 79.3 0.2 14.8 0.4 73.5 1.0 24.7 6.8 139.4 11.6 368.2 1.6 95.7 1.2 109.6 7.2 196.2 3.2 102.2 ;
proc gplot data=e41; plot y*x; run;
二、相关系数分析
Proc corr data=e41 ; Var x y; Run;
2、计算协方差与相关矩阵 Proc corr data=e41 cov; Var x y; Run;
例:10个企业的销售收入和销售利润资料 企业编号 销售收入x 销售利润y 1 2 3 4 5 6 7 8 9 10 5 10 12 15 15 20 25 28 30 30 0.8 1 1.2 2 2.2 2.5 2.5 2.8 3 3 Data e42; input x y @@; Cards;
5 0.8 10 1 12 1.2 15 2 15 20 2.5 25 2.5 28 2.8 30 3 30 ;
Proc corr data=e42; Var x y; Run;
2.2
3
例,分析变量年龄,体重,跑步时间和需氧量的关系
data fitness;
input Age Weight Runtime Oxygen @@; datalines;
57 73.37 12.63 39.407 54 79.38 11.17 46.080 52 76.32 9.63 45.441 50 70.87 8.92 .
51 67.25 11.08 45.118 54 91.63 12.88 39.203 51 73.71 10.47 45.790 57 59.08 9.93 50.545 49 76.32 . 48.673 48 61.24 11.5 47.920 52 82.78 10.5 47.467 44 73.03 10.13 50.541 45 87.66 14.03 37.388 45 66.45 11.12 44.754 47 79.15 10.6 47.273 54 83.12 10.33 51.855 49 81.42 8.95 40.836 51 77.91 10.00 46.672 48 91.63 10.25 46.774 49 73.37 10.08 50.388 44 89.47 11.37 44.609 40 75.07 10.07 45.313 44 85.84 8.65 54.297 42 68.15 8.17 59.571 38 89.02 9.22 49.874 47 77.45 11.63 44.811 40 75.98 11.95 45.681 43 81.19 10.85 49.091 44 81.42 13.08 39.442 38 81.87 8.63 60.055 ;
proc corr data=fitness pearson spearman hoeffding; var weight oxygen runtime; run;
三、一元回归分析模型建立及检验
y??0??1x??
回归分析中,变量 y 称为因变量,处在被解释的地位,x 称为自变量,用于预测因变量的变化,因变量 y 是随机变量,自变量 x 是非随机的确定变量,回归分析不仅可以揭示变量 x 对变量 y 的影响大小,还可以由回归方程进行预测和控制 u残差(residual)
?1???xt?t?1N?x??yt?y?
?xt?t?1N?x?2?x ?0?y??1
Proc reg data=e42; Model y= x ; Run;
模型的检验,模型系数T检验与模型拟合优度R2 简单模型
Proc reg data=e41 ; Model y=x; Run;
加描述统计量的简单模型 ,加all Proc reg data=e41 all; Model y=x; Run;
Proc GLM data=e41; Model y= x ; Run;
四、一元回归模型的拟合图和残差图和异方差
画出残差图
Proc reg data=e41 all; Model y=x;
plot r.*p./ vref=0;
Run;
PROC REG DATA=e41; MODEL Y = X; Plot ; Plot y*x; RUN;
Proc REG data=e41; Model y=x;
Plot y*x p.*x/overlay ; Run;
symbol;
proc reg data=e41; model y=x;
plot y*x/pred nostat mse aic bic ; plot y*x / conf pred;
plot r.*nqq./ noline mse ; plot rstudent.*obs.;
output out=regout p=rhat; run;
计算预测值与残差 Proc reg data=e41; Model y=x/r cli clm; Run;
残差Q-Q图,P-P图
symbol i=spline v=star h=2 color=pink width=2;
proc reg data=e41 outest=kk;
model y=x/r aic bic edf gmsep jp pc sbc sp selection=rsquare; plot r.*nqq. / aic bic mse ; plot npp.*r./ nostat ; run;
proc print data=kk; run;
预测区间图
Proc reg data=e41 all; Model y=x;
plot (y PREDICTED. u95. l95.)*x/overlay; Run;
身高H与体重W的关系 data wh1001;
input h w @@; cards;
172.4 75.0 169.3 54.8 169.3 64.0 171.4 64.8 166.5 47.4 171.4 62.2 168.2 66.9 165.1 52.0 168.8 62.2 167.8 65.0 165.8 62.2 167.8 65.0 164.4 58.7 169.9 57.5 164.9 63.5 160.3 55.2 175.0 66.6 172.5 73.5 172.0 64.0 168.4 57.0 155.0 57.0 175.5 63.9 172.3 69.0 168.6 58.0 176.4 56.9 173.2 57.5 167.5 50.0 169.4 52.2 166.7 72.0 169.5 57.0 165.7 55.4 161.2 48.5 172.8 57.0 175.1 75.5 157.5 50.5 169.8 62.9 168.6 63.4 172.6 61.0 163.8 58.5 165.1 61.5 166.7 52.5 170.9 61.0 166.1 69.5 166.2 62.5 172.4 52.6 172.8 60.0 177.8 63.9 162.7 56.8 168.8 54.0 169.1 66.2 177.5 60.0 177.0 66.2 169.9 55.9 167.4 54.4 169.3 58.4 172.8 72.8 169.8 58.0 160.0 65.3 179.1 62.2 172.3 49.8 163.3 46.5 172.9 66.7 165.4 58.0 175.8 63.2 162.3 52.2 165.4 65.7 171.5 59.3 176.6 66.3 181.7 68.6 175.2 74.9 169.5 59.5 169.6 61.5 169.1 63.1 185.5 77.0 173.9 65.5 162.5 50.0 171.5 58.5 175.6 59.8 166.0 75.5 167.2 63.3 171.9 57.0 176.6 58.4 177.3 67.0 169.2 71.8 166.2 49.8 181.7 63.0 175.8 68.3 172.3 55.5 172.7 58.5 174.3 64.0 171.2 59.0 174.8 68.0 165.4 55.5 169.1 64.8 167.9 62.0 176.8 64.0 183.5 69.9 165.5 48.6 171.0 70.5 170.3 58.5 ;
Proc reg data=wh1001 corr; model w=h;
plot p.*r.;
title ’QQ Plot’;
plot r.*nqq./ noline mse;
run;
Proc reg data=wh1001; model w=h;
plot (w PREDICTED. u95. l95.)*h/overlay ; plot W*H / pred nostat; run;
五、多元回归模型与数据标准化系数
y??0??1x1??2x2??3x3??
回归方差分析表
变异来源 离差平方和 source 回归R 误差E 总变异T SS 自由度 df 均方 MS F统计量 F P概率值 P P RSSESSTSSk MSR?RSS/k Fk,N?k?1?MSR/MSE N?k?1 N?1 MSE?ESS/(N?k?1)
例 某学校20名一年级女大学生体重(公斤)、胸围(厘米)、肩宽(厘米)及肺活量(升)实测值如表所示,
试对影响女大学生肺活量的有关因素作多元回归分析。
20名一年级女大学生肺活量及有关变量测量结果
编号 1 2 3 4 5 6 7 体重X1(公斤) 51.3 48.9 42.8 55.0 45.3 45.3 51.4 胸围X2(厘米) 73.6 83.9 78.3 77.1 81.7 74.8 73.7 肩宽X3(厘米) 36.4 34.0 31.0 31.0 30.0 32.0 36.5 肺活量Y(升) 2.99 3.11 1.91 2.63 2.86 1.91 2.98 8 9 10 11 12 13 14 15 16 17 18 19 20 53.8 49.0 53.9 48.8 52.6 42.7 52.5 55.1 45.2 51.4 48.7 51.3 45.2 79.4 72.6 79.5 83.8 88.4 78.2 88.3 77.2 81.6 78.3 72.5 78.2 74.7 37.0 30.1 37.1 33.9 38.0 30.9 38.1 31.1 30.2 36.5 30.0 36.4 32.1 3.28 2.52 3.27 3.10 3.28 1.92 3.27 2.64 2.85 3.16 2.51 3.15 1.92
data ex43;
input x1 x2 x3 y;
cards;
51.3 73.6 36.4 2.99 48.9 83.9 34.0 3.11 42.8 78.3 31.0 1.91 55.0 77.1 31.0 2.63 45.3 81.7 30.0 2.86 45.3 74.8 32.0 1.91 51.4 73.7 36.5 2.98 53.8 79.4 37.0 3.28 49.0 72.6 30.1 2.52 53.9 79.5 37.1 3.27 48.8 83.8 33.9 3.10 52.6 88.4 38.0 3.28 42.7 78.2 30.9 1.92 52.5 88.3 38.1 3.27 55.1 77.2 31.1 2.64 45.2 81.6 30.2 2.85 51.4 78.3 36.5 3.16 48.7 72.5 30.0 2.51 51.3 78.2 36.4 3.15 45.2 74.7 32.1 1.92 ;
proc reg;
model y=x1 ; model y=x1 x2 ; model y= x2 x3;
model y=x1 x2 x3/ stb mse aic bic caxis=red ctext=blue ;
run; quit;
六、共线性检验(VIF,
共线性(collinearity, multicollinearity)问题是指独立变量间存在线性关系 共线性的诊断可使用方差膨胀因子、条件指数和方差比例
方差膨胀因子(VIF)是对由于共线性而引起的参数估计量的方差增加的一个相对度 量,一般采用 VIF >10 表明存在共线性问题
容忍度Tol,为VIF的倒数,当TOL小于0.0001时程序会自动拒绝一个自变量。
? VIF>10,有多重共线性;TOL=1/VIF;
条件数C?
?max,C>20,共线性严重 ?minproc reg data=xiaoshou;
model y=x1 x2/ COLLIN vif tol; run;
collin 对自变量之间的共线性进行分析
collinoint 对自变量之间的共线性进行分析,不包括截距项 collin collinoint 对自变量之间的共线性进行分析 对自变量之间的共线性进行分析,不包括截距项
proc reg data=ex43 simple corr ;
model y=x1 x2 x3 / p cli clm r vif influence partial collin tol collinoint; run;
七、变量的逐步选择
一、 stepwise逐步回归过程
stepwise过程对逐步回归提供了九种方法。当你有许多自变量且想找出哪些自变量是该选入回归模型时,stepwise是有用的。
常用的自变量的选择法, BACKWARD,FORWARD, STEPWISE
proc reg data=xiaoshou;
model y=x1 x2/ selection=stepwise CP details=summary; ;
run;
标准回归系数
proc reg data=xiaoshou;
model y=x1 x2/ selection=stepwise std details=summary; run;
八、模型的自相关DW检验
DW?(et?t?2N?et?1)2/ESS
0?DW?4
当DW值愈接近2时,残差项间愈无相关。
当DW值愈接近0时,残差项间正相关愈强。 当DW值愈接近4时,残差项间负相关愈强。
SAS回归分析程序 Proc Reg 选项串 ;
1) data=输入文件名,缺省则为最后一个sas文件 2)0utest=输出文件名 3)all 印出所有分析结果 4)corr 印出相关系数阵
1) Tol(rance) (定义为1-R2)印出各参数的容忍量 2) Vif (Variance Inflance) 变异数的膨胀值 3) Collin 执行多自变量间的共线性分析 4) P 因变量的实际值与预测值及误差的表
5) R 比7)更多,包括(cook)D 值(用于发现奇异样本) 6) clm 各个预测值均值的95%的置信区间上下限 7) Partial 对每一个自变量作净回归图
8) selection=stepwise (forward backward Rsquare Adjrsq MaxR )(分别为)逐步回归(向前回归,向后回归,复相关系数平方法,修正的复相关系数平方法,最大相关法)
Plot 图形指令串/选项串; 1)Plot 纵轴变量名.*横轴变量名.
回归模型—收入与消费的关系
Data datareg;
Input dq $1-8 x1 y1 x2 y2;
Lable dq=\省区\ x1=\城镇居民年人均可支配收入\
y1=\城镇居民年人均消费\ x2=\农民人均纯收入\ y2=\农民人均生活消费\;
cards;
Hebei 10305 7343 3802 2495 Liaoning 10370 7987 4090 3067 Jiangsu 14084 9629 5813 4135 Zhejiang 18265 13349 7335 6057 Fujian 13753 9808 4835 3591 Shandong 12192 8468 4368 3144 Hainan 9395 7127 3256 2232 Guangdon 16016 12432 5080 3886 Shanxi 10028 7171 3181 2253 InnerMon 10358 7667 3342 2772 Jilin 9775 7353 3641 2701 Heilongj 9182 6655 3552 2618 Anhui 9771 7295 2969 2421 Jiangxi 9551 6646 3460 2677 Henan 9810 6685 3261 2229 Hubei 9803 7397 3419 2732 Hunan 10505 8169 3390 3013 Chongqin 11570 9399 2874 2205 Guangxi 9899 6792 2770 2414 Sichuan 9350 7525 3002 2395 Guizhou 9117 6848 1985 1627 Yunnan 10070 7380 2250 2196 Tibet 8941 6193 2435 2002 Shaanxi 9268 7553 2260 2181 Gansu 8921 6974 2134 1855 Qinghai 9000 6530 2358 2179 Ningxia 9177 7206 2760 2247 Xinjiang 8871 6730 2737 2032 ;
proc reg data=datareg; model y1=x1; plot y1*x1; model y2=x2; plot y2*x2;
run;
正在阅读:
SAS 相关与回归模型11-05
英汉语言文化对比中期小结01-18
面包制作论文05-29
年度个人述职报告通用4篇03-22
薄片鉴定01-12
2018年中医基础理论习题及答案405-21
药剂学10-20
知情同意书12-06
计算机网络基本原理复习选择题(答案)11-23
- exercise2
- 铅锌矿详查地质设计 - 图文
- 厨余垃圾、餐厨垃圾堆肥系统设计方案
- 陈明珠开题报告
- 化工原理精选例题
- 政府形象宣传册营销案例
- 小学一至三年级语文阅读专项练习题
- 2014.民诉 期末考试 复习题
- 巅峰智业 - 做好顶层设计对建设城市的重要意义
- (三起)冀教版三年级英语上册Unit4 Lesson24练习题及答案
- 2017年实心轮胎现状及发展趋势分析(目录)
- 基于GIS的农用地定级技术研究定稿
- 2017-2022年中国医疗保健市场调查与市场前景预测报告(目录) - 图文
- 作业
- OFDM技术仿真(MATLAB代码) - 图文
- Android工程师笔试题及答案
- 生命密码联合密码
- 空间地上权若干法律问题探究
- 江苏学业水平测试《机械基础》模拟试题
- 选课走班实施方案
- 模型
- 回归
- 相关
- SAS
- 关于开展广东省工业危险废物申报登记试点工作及重点行业工业危险废物产生源专项调查的通知
- 线段和最小及差最大问题
- 体育-黄巍+吕兵文信息化教学设计 - 图文
- 11月游戏项目
- 国贸实务试题1(附参考答案)
- 创新杯宣传单
- 《国家电网公司安全工作奖惩规定》(2012年印发)
- 葡萄品种
- 2015年高中自主招生模拟考试语文试题
- 宋骞秒杀数学老师对高考数学的理解
- 晶胞密度计算
- 对旅游行业的认识
- 财政学复习提纲最终1版
- 2019武汉夫妻共同财产分割法律依据
- 教师追悼会上的悼词讲话稿
- Modoer2.0 - 模板制作手册
- 专业物业保洁服务项目作业指导书
- 教育学章节练习全
- 2015年01月05日qwertyu1234567qw的高中物理组卷(1)
- 滞期、速谴计算