您现在的位置:首页 > 教案格式 > 正文

主成分分析_成份分析_主成分分析的主要步骤(6)

2016-11-26 11:08 网络整理 教案网

第一主成份贡献率只有59%,前两个主成份累计贡献率达到76%,可以用前两个主成份。前三个主成份累计贡献率已达到87%,所以前三个主成份可以表现犯罪率的大部分信息。第一主成份的计算系数都是正数,所以它是一个州的犯罪率的一个加权平均,代表这个州的总的犯罪情况。第二主成份在入室盗窃(BURGLARY)、盗窃罪(LARCENY)、汽车犯罪(AUTO)上有较大的正系数,在谋杀(MURDER)、(RAPE)、攻击(ASSAULT)上有较大的负系数,所以代表了犯罪与其它犯罪的一种对比。第三主成份为抢劫、汽车犯罪等与盗窃罪、入室盗窃、的对比,其意义不易解释。

为了看出各州按第一主成份和第二主成份由低到高排列的情况,先用SORT过程排了序,然后用PRINT过程打印了结果(结果略)。在按第一主成份排序中,NorthDakota、South Dakota、West Virginia排列在前,说明其犯罪率最低,Nevada、California排列在后,说明其犯罪率最高。在按第二主成份排列的结果中,Mississippi排在最前,说明其犯罪最高,Massachusetts最后,说明其犯罪最低。后面用PLOT过程画了主成分的散点图。

在SAS/INSIGHT中可进行主成份分析。例如,对于上面的WORK.CRIME数据集,在INSIGHT 中打开它后,选“Analyze| Multivariate ( Y's )”,弹出选择变量的对话框,把各犯罪率变量都选为Y变量,然后按Output按钮,选中主成份分析(PrincipalComponent Analysis )复选框,OK后就得到了多变量分析结果(包括原始变量的简单统计量、相关阵)和主成份分析的结果(特征值、累计贡献率、特征向量)。另外还画了前两个主成份的散点图。

主成份分析作个原始变量的个线性组合,这些线性组合在原始变量的所有个线性组合中可以最好地预报原始变量。因子分析对主成份分析进行了推广,它用潜在的个“因子”来概括原始变量的信息,这些因子不一定是原始变量的线性组合。

设为随机向量,其均值为,协方差阵为,我们称有个因子的模型,若能表为

其中是未知常数阵,和为随机向量。称为公共因子,叫做特殊因子,叫因子负荷矩阵。这个模型象是回归分析模型,但是这里是多元随机变量而不是一个随机变量的样本,也是随机变量而不是一般的回归系数。求因子分解要用到原始变量协方差阵与、特殊因子的协方差阵的如下关系式:

公因子模型分解是不唯一的,因为如果是一个正交阵,则有

这时是新的因子,是新的因子负荷阵。我们可以利用这一特点对得到的因子模型进行旋转以产生容易解释的因子。旋转时一般试图使因子载荷系数靠近正负1和0,这样容易解释因子的组成。

SAS/STAT的FACTOR过程可以进行因子分析、分量分析和因子旋转。对因子模型可以使用正交旋转和斜交旋转,可以用回归法计算得分系数,同时把因子得分的估计存贮在输出数据集中;用FACTOR过程计算的所有主要统计量也能存贮在输出数据集中。

FACTOR过程用法很简单,主要使用如下语句:

PROC FACTOR DATA= 数据集 选项;

VAR 原始变量;

RUN;

输出结果包括特征值情况、因子载荷、公因子解释比例,等等。为了计算因子得分,一般在PROC FACTOR语句中加一个SCORE选项和“OUTSTAT=输出数据集”选项,然后用如下的得分过程计算公因子得分:

		PROC SCORE DATA=原始数据集 SCORE=FACTOR过程的输出数据集 
							OUT=得分输出数据集;
			VAR  用来计算得分的原始变量集合;
		RUN;