方差分析一般线性模型
一、基本思想
方差分析的基本思想是:通过分析研究不同来源的变异对总变异的贡献大小,从而确定可控因素对研究结果影响力的大小。
二、应用
数据分析师 在用方差分析主要用途:①均数差别的显著性检验,②分离各有关因素并估计其对总变异的作用,③分析因素间的交互作用,④方差齐性检验。
三、实例(数据符合方差齐性检验)
例一:单因素检验
第一部分:项目描述
项目1:酸奶饮料新产品口味测试研究案例。
建模目标:选择最优样品,并利用该模型对城市间的差异、城市与品牌间的交互作用等问题进行探讨。
分析方法:交叉表、多因素方差分析模型。
分析过程:数据:拆分文件;描述统计:交叉表;比较均值:均值;统计图:误差线条图;一般线性模型:单变量。
第二部分:模型过程,
第一步,先进行单变量方差分析:一般线性模型 → 单变量,检验该因素是否具有统计作用。
第二步,若具有统计作用,则接着组间两两比较,检验哪两个品牌之间具有差异。输出结果如下:将品牌分为2个子集,且两个子集中间是差异的P值<5,子集之间的各品牌是无差异的P值>5。
样本品牌 | 样本数 | 子集1 | 子集2 |
品牌1 | N1 | 品牌1的均值 |
|
品牌2 | N2 | 品牌2的均值 |
|
等等 | 等等 | 等等 | 等等 |
品牌n | Nn |
| 品牌n |
sig.,即P值 |
| P值(子集1中的品牌是否有差异,大于5代表无差异) | P值(子集2中的品牌是否有差异,大于5代表无差异) |
注:常常两两比较方法有,LSD、Bonferoni、TUKEY、Scheffe、S-N-K等等。方差分析的前提是数据具有独立性、正态性和方差齐性。在做方差分析前,则需要做方差齐性检验。
例二:多因素检验
1. 类似于一般线性单因素检验,输出每个因素是否具有统计性意义的检验,还包括两个因素之间是否具有交互作用的检验,当P<5时,代表具有统计意义。
2. 如果发现无交互作用统计意义,则需要建立主效应模型,剔除交互作用。
3. 进行组间两两比较,给出分类。
三、实例(数据不符合方差齐性检验)
项目2:偏态分布的激素水平影响因素分析。
建模目标:在控制了其他因素的作用之处,激素水平是否的确在对照组和实验组之间存在差异。
分析方法:Bootstrap抽样、秩和检验、秩变换方法和Cox回归。
分析过程:转换:计算变量、个案排秩;表:设定表;统计图:直方图、散点图;比较均值:均值;描述统计:描述、P-P图;非参数检验:独立样本;生存函数:Cox回归。
第一步,观察变量分布
用频数、描述统计量、直方图等观察分布。
第二步,变量关联探索(三种方法)
由于激素水平呈偏态分布,因此变量关联不能简单地套用常规的t检验等方法。
1. 采用Bootstrap抽样进行分析
1.1 基本原理:在原始数据范围内做有放回的重复抽样,样本含量仍为n,原始数据中每个观察单位每次被抽到的概率相等,为1/n,所得样本成为Bootstrap样本。于是可得到任何一个参数sita的一个估计值,重复抽样若干次,即为B。得到该参数的估计值 。
1.2 参数法和非参数法:前者需要假定sita的分布状况,后者则无任何限制。以可信区间的估计方法为例,其基本原理为:当sita的分布近似正态时,可以其均值做点估计,利用正态原理估计Bootstrap可信区间;当sita估计的频数分布为偏态时,以其中位数做点估计,用上、下2.5%分布数估计95%可信区间。
1.3 抽样次数的确定:B值取值越大,计算结果越准确,但需要花费的计算时间越长。一般取50-200,保证在1000例以下。
2. 采用秩和检验进行分析
3. 用散点图探讨两变量之间的关联
第三步,对因变量变换后的建模分析(三种方法)
1. 将变量变化,然后进行单变量分析
1.1 常见的变量变换方法:对数转换、平方根转换、平方分反弦转换、平方变换、倒数变换、Box-Cox变换等等。(cda数据分析师)
1.2 检验是否不再明显偏离正态,可以用PP图检验。
1.3 运用一般线性模型进行变量显著性检验。检验结果包括两部分:变量显著性检验、失拟检验(当前模型的预测效果是否存在差异,如果P值大于0.05,因此当前模型不需要再考虑增加任何交互项了。)
2. 秩变换分析
秩变化分析方法,就是先求出原变量的秩次,然后使用求出的秩次代替原变量进行参数分析。
1. 先进行秩变化,选择要变化的变量,进行秩变化;
2. 将秩变换后的变量进行单变量分析;
3. 利用Cox模型进行分析
1. 生存分析中的几个概念
事件:指由研究者规定的生存时间的终点,如机器发生故障等。
生存时间:从某一起点开始到所关心事件发生的时间。生存时间是生成分析的对象。例如将轿车的行驶公里数作为生存时间。
删失:是指由于所关心时间的发生未被观测到或无法观测到以致生存时间无法被准确记录下来的情况。
生存函数与风险函数:用来描述生存时间的分布的两个主要工具。
用一个非负随机变量t来表示生存时间,生存函数的定义为随机变量T越过时间点t的概率。当t=0时,生存函数的取值为1,随着时间的推移,生存函数的取值逐渐减小。
2. Cox模型的基本结构
2.1 Cox 回归模型的基本思想是在风险函数与研究因子之间建立类似于广义线性模型的关联,这样就可以直接考察研究因子对风险函数的影响。
2.2 具体操作:分析→生存函数→Cox回归→将分析因子放入时间列表框、状态、协变量、分类等都要选好。http://www.cda.cn/view/669.html