方差分析
方差分析(Analysis of Variance,ANOVA)是一种统计方法,用于比较多个组之间的平均值是否存在显著差异。方差分析的基本思想是通过比较组内变异性与组间变异性的大小来判断组间平均值是否有显著差异。
在方差分析中,数据被分成若干组,然后分别计算每组的平均值。方差分析的目标是比较这些组的平均值是否存在显著差异,而不只是简单地比较它们的平均值。
方差分析通常分为一元方差分析(One-Way ANOVA)和双因素方差分析(Two-Way ANOVA)两种主要类型。
一元方差分析(One-Way ANOVA): 适用于有一个因素(自变量)的情况,该因素有三个或更多水平(组)。例如,你可能想要比较不同教育水平的学生在考试成绩上是否存在显著差异。
双因素方差分析(Two-Way ANOVA): 适用于有两个因素(自变量)的情况,这两个因素可能相互影响。例如,你可能想要了解不同药物和不同剂量对疾病治疗效果的影响。
方差分析的假设包括对数据的正态性和方差齐性的假设。如果数据符合这些假设,方差分析的结果可以用来判断组间平均值是否有显著差异。
进行方差分析时,通常会计算F统计量,然后与临界值进行比较以判断差异是否显著。如果F统计量大于临界值,就可以拒绝原假设,认为组间存在显著差异。
方差分析是一种强大的统计工具,常用于实验设计和数据分析中,以确定组别之间的差异性。
方差的统计量
水平的均值
$$ \bar x_i = \frac{\sum_{j=1}^{n_i} x_{ij}}{n_i} $$
- $n_i$为第$i$个总体的样本观察值个数
- $x_{ij}$为第$i$个总体的第$j$个观察值
全部观察值的总均值
$$ \bar{\bar{x}} = \frac{\sum_{i=1}^{k}\sum_{j=1}^{n_i} x_{ij}}{N} $$
- $k$ 是总体的个数,
- $n_i$ 是第 $i$ 个总体的样本观察值个数,
- $x_{ij}$ 是第 $i$ 个总体的第 $j$ 个观察值,
- $N$ 是所有观察值的总个数,即 $N = \sum_{i=1}^{k} n_i$。
总误差平方和SST
总误差平方和(Total Sum of Squares,SST)是在方差分析中的一个重要概念,它用于衡量所有观察值与总体均值之间的总变异性。
SST的计算公式为:
$$ SST = \sum_{i=1}^{k}\sum_{j=1}^{n_i} (x_{ij} - \bar{\bar{x}})^2 $$
其中:
- $k$ 是总体的个数,
- $n_i$ 是第 $i$ 个总体的样本观察值个数,
- $x_{ij}$ 是第 $i$ 个总体的第 $j$ 个观察值,
- $\bar{\bar{x}}$ 是全部观察值的总均值,即 $\bar{\bar{x}} = \frac{\sum_{i=1}^{k}\sum_{j=1}^{n_i} x_{ij}}{N}$ ,其中 $N$ 是所有观察值的总个数。
水平项平方和SSA
水平项平方和(Sum of Squares for Treatments,SSA),也称为组间平方和(Between-Groups Sum of Squares),是在方差分析中的一个关键概念。它用于衡量各个水平(组别)均值与整体均值之间的总变异性。
SSA的计算公式为:
$$ SSA = \sum_{i=1}^{k} n_i (\bar{x}_i - \bar{\bar{x}})^2 $$
其中:
- $k$ 是总体的个数,
- $n_i$ 是第 $i$ 个总体的样本观察值个数,
- $\bar{x}_i$ 是第 $i$ 个总体的样本均值,
- $\bar{\bar{x}}$ 是全部观察值的总均值,即 $\bar{\bar{x}} = \frac{\sum_{i=1}^{k}\sum_{j=1}^{n_i} x_{ij}}{N}$ ,其中 $N$ 是所有观察值的总个数。
误差项平方和SSE
误差项平方和(Sum of Squares for Error,SSE),也称为组内平方和(Within-Groups Sum of Squares),是方差分析中的另一个关键概念。它用于衡量每个组内观察值与组均值之间的总变异性。
SSE的计算公式为:
$$ SSE = \sum_{i=1}^{k}\sum_{j=1}^{n_i} (x_{ij} - \bar{x}_i)^2 $$
其中:
- $k$ 是总体的个数,
- $n_i$ 是第 $i$ 个总体的样本观察值个数,
- $x_{ij}$ 是第 $i$ 个总体的第 $j$ 个观察值,
- $\bar{x}_i$ 是第 $i$ 个总体的样本均值。
平方和之间的联系
在方差分析中,SST(总误差平方和)、SSA(组间平方和)和SSE(组内平方和)之间有着特定的关系。它们之间的关系可以总结如下:
关系:
- $\text{SST} = \text{SSA} + \text{SSE}$
- 总误差平方和(SST)等于组间平方和(SSA)和组内平方和(SSE)的总和。
自由度:
- 总自由度 $df_{\text{total}} = N - 1$,其中 $N$ 是所有观察值的总数。
- 组间自由度 $df_{\text{between}} = k - 1$,其中 $k$ 是总体的个数(组别数)。
- 组内自由度 $df_{\text{within}} = N - k$。
这些自由度的计算方式和关系如下:
- 总自由度是所有数据点的个数减去1,因为在计算总均值时使用了一个自由度。
- 组间自由度是组别数减去1,因为我们在比较组别均值时有一个约束(总体均值)。
- 组内自由度是总自由度减去组间自由度,表示不同组内的自由度之和。
均方MS
在方差分析中,均方(Mean Square,MS)是平方和(Sum of Squares,SS)除以相应的自由度(degrees of freedom,df)得到的值。均方用于衡量数据的变异性,并在F检验中用于计算F统计量。有组间均方(MSA,Mean Square for Among-groups)、组内均方(MSE,Mean Square for Error)等不同类型的均方。
具体地,组间均方(MSA)和组内均方(MSE)的计算方式如下:
组间均方(MSA):
$$ MSA = \frac{SSA}{df_{\text{between}}} $$
其中,SSA是组间平方和,$df_{\text{between}}$ 是组间自由度。组内均方(MSE):
$$ MSE = \frac{SSE}{df_{\text{within}}} $$
其中,SSE是组内平方和,$df_{\text{within}}$ 是组内自由度。
F统计量
F统计量是方差分析中用于判断组别均值是否存在显著差异的一种统计量。它基于组间均方(MSA,Mean Square for Among-groups)和组内均方(MSE,Mean Square for Error)的比值计算而得。F统计量的计算公式为:
$$ F = \frac{MSA}{MSE} \sim F({k-1},{n-k}) $$
其中:
MSA(组间均方) 是组间平方和(SSA)除以组间自由度($df_{\text{between}}$)得到的均方:
$$ MSA = \frac{SSA}{df_{\text{between}}} $$MSE(组内均方) 是组内平方和(SSE)除以组内自由度($df_{\text{within}}$)得到的均方:
$$ MSE = \frac{SSE}{df_{\text{within}}} $$
F统计量的大致含义是组间均方相对于组内均方是否显著大。如果F统计量较大,说明组间的变异性相对于组内的变异性较大,从而支持组别均值存在显著差异的假设。
在F检验中,我们将计算得到的F值与临界值进行比较。如果F值大于临界值,就可以拒绝零假设,认为组别之间存在显著差异。
方差分析表
方差分析表(Analysis of Variance table,ANOVA table)是用于总结方差分析结果的一种表格形式。该表格包含了关键的统计信息,帮助解释组间差异和整体变异性。
方差分析表通常包括以下主要部分:
来源(Source): 列出了分析中的各个来源,包括组间(Between-Groups)和组内(Within-Groups)。
自由度(Degrees of Freedom,df): 指明了每个来源的自由度,分别是组间自由度($df_{\text{between}}$)和组内自由度($df_{\text{within}}$)。
均方(Mean Square,MS): 对应于每个来源的均方,包括组间均方(MSA,Mean Square for Among-groups)和组内均方(MSE,Mean Square for Error)。
F统计量: 包括计算得到的F值,用于判断组别之间的均值是否存在显著差异。
p值: 表示F统计量的显著性水平。如果p值小于设定的显著性水平(通常为0.05),就拒绝零假设,认为组别之间存在显著差异。
一个简化的方差分析表可能如下所示:
来源 | 离差平方和 | 自由度 | 均方 | F值 | p值 |
---|---|---|---|---|---|
组间 | SSA | $df_{\text{between}}$ | MSA | F统计量 | p值 |
组内 | SSE | $df_{\text{within}}$ | MSE | - | - |
总计 | SST | $df_{\text{total}}$ | - | - | - |
方差分析中的多重比较
LSD
$$ t = \frac{ \bar X_i - \bar X_j}{\sqrt{SM_w \left( \frac{1}{n_i} + \frac{1}{n_j} \right) }} \sim t \left( {df_w} \right) $$
如果$ \lvert \bar X_i - \bar X_j \lvert \gt t_{\frac{a}{2}} \sqrt{SM_w \left( \frac{1}{n_i} + \frac{1}{n_j} \right) } $则认为$ \mu_1 $与$ \mu_2 $有显著差异,否则认为它们之间没有显著差异。
多因素方差分析
多因素方差分析是一种用于分析两个或更多自变量(因素)对因变量的影响的统计方法。这种分析考虑了多个因素同时对因变量产生的影响,包括它们的主效应和可能的交互效应。
- 无交互效应的多因素方差分析
在无交互效应的多因素方差分析中,各因素对因变量的影响是独立的,没有因素之间的相互作用。这意味着每个因素的影响都是独立的,没有因素之间的影响效应。 - 有交互效应的多因素方差分析
有交互效应的多因素方差分析考虑了不同因素之间的相互作用对因变量的影响。交互效应表示两个或多个因素组合在一起对因变量产生的效应,这可能导致因素之间的影响并非简单地叠加。
主效应与交互效应
主效应: 表示每个因素对因变量的独立影响,即每个因素的平均效应。
交互效应: 表示两个或多个因素组合在一起对因变量产生的影响,表现为因素之间的非独立影响。
双因素方差分析的类型
在双因素方差分析中,可以有以下几种类型:
两因素无交互效应方差分析: 考虑两个因素的独立影响,没有因素之间的相互作用。
两因素有交互效应方差分析: 考虑两个因素的独立影响以及它们之间的相互作用。
重复测量方差分析: 考虑两个因素,其中一个或两个因素可能是重复测量的因素,即相同个体在不同条件下的观测。