统计学-分类数据与卡方检验-20180115

对分类数据进行分析的统计方法主要是利用 \chi^2 分布,也被称作 \chi^2 检验, \chi^2 检验的应用主要表现在两个方面,分别是拟合优度检验和独立性检验,前者用于单变量,后者用于双变量。

1、分类数据与 \chi^2 统计量

数据类型一般可分为无序类别数据、有序类别数据和数值型数据,在处理无序类别数据和有序类别数据时需要特别注意,当你用一个数字去代替某一类别时,需时刻记得数字之间的间隔不能反映类别之间的差距,在有序类别中仅可以用来比较大小,在无序类别中仅仅是一个代号而已。

我们常用类别出现的频数对分类数据进行分析,而 \chi^2 检验正可以对这类数据进行分析。

\chi^2 检验其实是测定两个分类变量之间的相关程度,它是利用类别变量的观测值频数与期望值频数进行构建的:

\chi^2 = \sum_{}^{}{\frac{(f_o-f_e)^2}{f_e}}

其中 f_o 代表观察值频数, f_e 代表期望值频数;

可以看到, \chi^2 统计量其实反映了观察值频数和期望值频数之间的差距,当差距较小时,统计量的值也会变小。所以 \chi^2 检验正是通过计算 \chi^2 统计量与临界值进行比较来确定相关的显著性的。

2、拟合优度检验

拟合优度检验很简单,它符合假设检验的的基本理论,所以使用的流程与之前的假设检验是一样,我们来看一个例子,你就知道它在说什么:

泰坦尼克沉船事件:当时船上2208人,男性1738人,女性470人,海难发生后,幸存者718人,其中男性374人,女性344人,我们想知道幸存状况是否与性别有关。

这个问题在机器学习上会是另外一种问法:性别对预测是否存活的贡献有多大,其实二者想表达的东西是一样的,因为只涉及到一个变量,所以是一个单变量分析的方法:

首先我们已经知道了观察频数:男性374人,女性470人,那期望频数如何计算呢,这里需要提到我们的假设条件,我们的原假设是:存活与性别无关,这意味着在存活的人中,男女存活的比例应该与总人数中男女比例是一样的:所以男性期望频数: 718*\frac{1738}{2208}=565 。女性的期望频数: 718*\frac{470}{2208}=153

构造卡方统计量: \chi^2 = \sum_{}^{}{\frac{(f_o-f_e)^2}{f_e}}=303 \chi^2 = \sum_{}^{}{\frac{(f_o-f_e)^2}{f_e}}=19.82 ,自由度为分类变量类型个数-1=1,即服从自由度为1的卡方分布,

我们查得此状态下的p值远小于0.025,所以存活状况与性别显著性相关。

3、独立性检验

拟合优度检验可以看作是独立性检验的特例,独立性检验通常对两个变量进行检验,查看这两个类别变量之间是否存在某种联系。例如原料有不同的等级,而原料又来自不同的地区,我们关心等级与产地是否有关,对这两个变量关系的检验,就可以用到独立性检验,通常利用一种叫做列联表的方式呈现,所以也被称作列联分析,我们来看等级和产地的例子:

以上非合计的单元格就是观察频数,所以我们现在需要计算期望频数,我们以第一单元,即来自甲地区一级原料的期望数量为例:

首先一级原料占比: 162/500 ,然后计算甲地区原料占比: 140/500 ,那么原本甲地区一级原料应该是: (\frac{140}{500})(\frac{162}{500})*500=45.36 ,依次类推我们计算的期望值:

构造统计量 \chi^2 = \sum_{}^{}{\frac{(f_o-f_e)^2}{f_e}}=19.82 ,服从自由度 (3-1)(3-1)=4 的卡方分布,由于 \chi^2>\chi^2_{0.05}(4) ,所以可以认为原料登记受地区影响。

基于以上我们可以看到 \chi^2 检验其实可以用来做变量初筛,而且它没有皮尔逊相关性的线性假设。

发表评论

您的电子邮箱地址不会被公开。 必填项已用*标注