卡方检验的基本原理（卡方检验原理及应用）

本文简单介绍卡方检验的原理和两个类型的卡方检验实例。

本期推送的另外几篇文章，来自微信公众号“amegroups”，长按下方二维码，关注该公众号。关注后，回复“卡方检验”即可看原文，给出出处，以防止转载过程中，关键信息丢失影响阅读时，找不到原文。

一、卡方检验的作用和原理

1）卡方检验的作用：简单来说就是检验实际的数据分布情况与理论的分布情况是否相同的假设检验方法。怎么理解这句话呢，拿一个群体的身高来说，理论上身高低于1米5的占10%，高于2.0的占10%，中间的占80%，现在我们抽取了这个群体中的一群人，那么对应这三个身高段的人数的比例关系是不是1:8:1呢？卡方分析就是解决这类问题。

2）卡方检验的原理：上面已经提到卡方检验是检验实际的分布于理论的分布时候一致的检验，那么用什么统计量来衡量呢！统计学家引入了如下的公式：

卡方检验的基本原理（卡方检验原理及应用）

Ai为i水平的观察频数，Ei为i水平的期望频数，n为总频数，pi为i水平的期望频率。i水平的期望频数Ti等于总频数n×i水平的期望概率pi，k为单元格数。当n比较大时，χ2统计量近似服从k-1(计算Ei时用到的参数个数)个自由度的卡方分布。和参数检验的判断标准一样，这个统计量有一个相伴概率p。零假设是理论分布与实际分布是一致的，所以如果P小于0.05，那么就拒绝原假设，认为理论和实际分布不一致。

二、适合性卡方测验

所谓适合性检验就是检验一个样本的分布是否符合某个分布的一种假设检验方法。比如说检验数据是否正态分布，是否成二项分布或者平均分布等等。拿正态分布来说吧！请看下图

卡方检验的基本原理（卡方检验原理及应用）

在这个近似标准正态分布的玉米株高的分布中，横轴代表的是株高的数据，而纵轴代表的是对应株高的频数，简单来说，正态曲线上的某点的纵坐标代表的就是这个点对应的横轴坐标显示株高的玉米有多少株。只不过正态分布曲线上显示的是频率值，而频率=该组株数/总的株数，所以分布曲线不会变，只不过纵坐标由频数变为频率。这也解释了昨天推送的《如何判断数据是否符合正态分布》中用带正态曲线的直方图判断数据是否符合正态分布的原理。

回到本节，当我们要检验玉米株高是否符合正态分布时，我们能够通过计算，计算出当样本量为600（注意本例株高数据的个案数为600，下载数据资料进行练习过的学员应该知道）时，每个株高下的玉米株数设为E，然后我们已经有实际值设为A,然后我们带入上面的公式计算得到卡方统计量，由SPSS输出相伴概率，我们就能判断数据是否符合正态分布了。

再说一个例子。

卡方检验的基本原理（卡方检验原理及应用）

这里假设理论上我们认为车祸每天发生的数量相同，就计算出每天车祸发生的理论发生数为22.8，而实际上每天车祸发生的数目并不是这样，那么这种不同是显著不同于理论分布呢，还是只是抽样引起的呢？需要用卡方进行检验。我们计算得到卡方统计量和相伴概率，就能够判断车祸实际每天发生的数量是就是理论上认为的应该相同了。

下面给出SPSS的操作过程：

1）选择非参数检验下的旧对话框按钮-点击卡方检验，然后把每天对应的概率输入期望值对话框。

卡方检验的基本原理（卡方检验原理及应用）