方差分析一般线性模型

2023-03-22

机器学习模型 ML.NET 变量方差分析

>方差分析一般线性模型一、基本思想方差分析的基本思想是：通过分析研究不同来源的变异对总变异的贡献大小，从而确定可控因素对研究结果影响力的大小。二、应用数据分析师在用方差分析主要用途：①均数差别的显著性检验，②分离各有关因素并估计其对总变异的作用，③分析因素间的交互作用，④方差

方差分析一般线性模型

一、基本思想

方差分析的基本思想是：通过分析研究不同来源的变异对总变异的贡献大小，从而确定可控因素对研究结果影响力的大小。

二、应用

数据分析师在用方差分析主要用途：①均数差别的显著性检验，②分离各有关因素并估计其对总变异的作用，③分析因素间的交互作用，④方差齐性检验。

三、实例（数据符合方差齐性检验）

例一：单因素检验

第一部分：项目描述

项目1：酸奶饮料新产品口味测试研究案例。

建模目标：选择最优样品，并利用该模型对城市间的差异、城市与品牌间的交互作用等问题进行探讨。

分析方法：交叉表、多因素方差分析模型。

分析过程：数据：拆分文件；描述统计：交叉表；比较均值：均值；统计图：误差线条图；一般线性模型：单变量。

第二部分：模型过程，

第一步，先进行单变量方差分析：一般线性模型 → 单变量，检验该因素是否具有统计作用。

第二步，若具有统计作用，则接着组间两两比较，检验哪两个品牌之间具有差异。输出结果如下：将品牌分为2个子集，且两个子集中间是差异的P值<5，子集之间的各品牌是无差异的P值>5。

样本品牌	样本数	子集1	子集2
品牌1	N1	品牌1的均值
品牌2	N2	品牌2的均值
等等	等等	等等	等等
品牌n	Nn		品牌n
sig.，即P值		P值（子集1中的品牌是否有差异，大于5代表无差异）	P值（子集2中的品牌是否有差异，大于5代表无差异）

注：常常两两比较方法有，LSD、Bonferoni、TUKEY、Scheffe、S-N-K等等。方差分析的前提是数据具有独立性、正态性和方差齐性。在做方差分析前，则需要做方差齐性检验。

例二：多因素检验

1. 类似于一般线性单因素检验，输出每个因素是否具有统计性意义的检验，还包括两个因素之间是否具有交互作用的检验，当P<5时，代表具有统计意义。

2. 如果发现无交互作用统计意义，则需要建立主效应模型，剔除交互作用。

3. 进行组间两两比较，给出分类。

三、实例（数据不符合方差齐性检验）

项目2：偏态分布的激素水平影响因素分析。

建模目标：在控制了其他因素的作用之处，激素水平是否的确在对照组和实验组之间存在差异。

分析方法：Bootstrap抽样、秩和检验、秩变换方法和Cox回归。

分析过程：转换：计算变量、个案排秩；表：设定表；统计图：直方图、散点图；比较均值：均值；描述统计：描述、P-P图；非参数检验：独立样本；生存函数：Cox回归。

第一步，观察变量分布

用频数、描述统计量、直方图等观察分布。

第二步，变量关联探索（三种方法）

由于激素水平呈偏态分布，因此变量关联不能简单地套用常规的t检验等方法。

1. 采用Bootstrap抽样进行分析

1.1 基本原理：在原始数据范围内做有放回的重复抽样，样本含量仍为n，原始数据中每个观察单位每次被抽到的概率相等，为1/n，所得样本成为Bootstrap样本。于是可得到任何一个参数sita的一个估计值，重复抽样若干次，即为B。得到该参数的估计值。

1.2 参数法和非参数法：前者需要假定sita的分布状况，后者则无任何限制。以可信区间的估计方法为例，其基本原理为：当sita的分布近似正态时，可以其均值做点估计，利用正态原理估计Bootstrap可信区间；当sita估计的频数分布为偏态时，以其中位数做点估计，用上、下2.5%分布数估计95%可信区间。

1.3 抽样次数的确定：B值取值越大，计算结果越准确，但需要花费的计算时间越长。一般取50-200，保证在1000例以下。

2. 采用秩和检验进行分析

3. 用散点图探讨两变量之间的关联

第三步，对因变量变换后的建模分析（三种方法）

1. 将变量变化，然后进行单变量分析

1.1 常见的变量变换方法：对数转换、平方根转换、平方分反弦转换、平方变换、倒数变换、Box-Cox变换等等。(cda数据分析师)

1.2 检验是否不再明显偏离正态，可以用PP图检验。

1.3 运用一般线性模型进行变量显著性检验。检验结果包括两部分：变量显著性检验、失拟检验（当前模型的预测效果是否存在差异，如果P值大于0.05，因此当前模型不需要再考虑增加任何交互项了。）

2. 秩变换分析

秩变化分析方法，就是先求出原变量的秩次，然后使用求出的秩次代替原变量进行参数分析。

1. 先进行秩变化，选择要变化的变量，进行秩变化；

2. 将秩变换后的变量进行单变量分析；