描述统计学

描述统计学(descriptive statistics)又称为叙述统计,是统计学中用于描述和总结所观察到对象的基本统计信息的一门学科。描述统计的结果是对当前已知的数据进行更精确的描述和刻画,分析已知数据的集中性和离散型。描述统计学通过一些数理统计方法来反映数据的特点,并通过图表形式对所收集的数据进行必要的可视化,进一步综合概括和分析得出数据的客观规律。

与之相对应的是推断统计学(statistical inference),又称为推断统计,是统计学中研究如何用样本数据来推断总体特征的一门学科。推断统计学是在对样本数据描述的基础上,对总体的未知数据做出以概率形式来描述的推断。推断统计的结果通常是为了得到下一步的行动策略。

本篇文章将会集中讲解描述统计学中的一些常见变量及其含义。

数据类型:

总体population),又称为全体或者整体,是指由多个具有某种共同性质的事物的集合。

样本sample),是指全体中随机抽取的个体。通过对样本的调查,可以大概的了解总体的情况。从总体抽样的时候,需要抽取一定数量的样本,如果样本太少,则不足以反映总体的情况。

population_and_sample
总体和样本

案例 1:一亿张图片所组成的图片集可以称之为一个总体,我们希望分析在这个图片集中包含汽车的图片有多少张。一种方法是一亿张图片每一张都看一遍,从而可以获得包含汽车的图片数量,这样就可以得到一个精确的数字。但是这样的工作量可能相对较大。另外一种方法是从一亿张图片中随机选择十万张或者一百万张,也就是获得了一个样本集。在这个样本集中,把每一张都看一遍,获得这个样本集中包含汽车的图片数量,进一步估算出总体中包含汽车的图片数量。这样的话,工作量相对较少,但是得到的则是一个估算数字。

ImageNet
ImageNet

案例 2:我们想知道某个国家居民的平均身高和体重,一种方法是将所有的居民都测量一遍,但是这样做的效果就是耗费的人力成本巨大。而另外一种办法就是随机抽样,抽取一定数量的居民进行身高和体重的测量。即可估算出这个国家居民的平均身高和体重。

特征类型

在机器学习领域,特征是被观测对象的某种特性和度量。一般情况下,事物的特征很多,但是提取的特征应该尽量要服从于我们的目的,如果提取了很多无效的特征,那么在机器学习实战中的价值也不会很大。通常来说,特征包括两类,第一种是离散型特征,第二种是连续型特征

discrete_and_continuous
连续与离散

离散型特征指的是该特征的数据类型是离散的(discrete)。例如人的性别,有男女两个选择,可以用 0 或者 1,或者其他记号来表示。例如某个城市是否属于某个省份,如果是的话该特征就是 1,如果否的话该特征就是 0。例如某只股票近期属于上涨还是下跌,上涨用 1 表示,下降用 0 表示。某个人当前处于婴儿,少年,青年,成年,老年的哪个阶段,分别用记号 0,1,2,3,4,5 表示,这种也是离散型特征。离散型特征的数值之间的大小关系(实数域比较)有的时候是没有意义的。例如人的性别,男(0)女(1)两个值,在实数域中 0 < 1,但是却没有意义。

连续性特征指的是该特征的数据类型是连续的(continuous)。例如某个国家一年的天气温度,温度是可以连续变化的,可以从 30 摄氏度连续地下降到 20 摄氏度,也可以连续地上升到 35 摄氏度。某个人的身高,可以从 170 cm 逐渐长高到 175 cm,这也属于连续的特征。连续特征的数值之间有大小关系(实数域比较),比如通过气温特征的值,是可以反映这个地区的温度情况。通过某个人的身高则可以反映出这个人距离上一次测量有没有变化。

特征统计量

集中趋势的度量(measure of central tendency)

集中趋势(central tendency)指的是某种平均的指标,通过这种指标可以反映一组数据的整体分布情况。在这里,这组数据并不需要有先后关系,只要是一个集合即可。对于 n 个数据所组成的集合,可以表示为 X=\{x_{1},x_{2},\cdots,x_{n}\}.

算术平均数(Arithmetic Mean)

数据的总和除以数据的个数,也就是

A_{n}=\mu=\sum_{i=1}^{n}x_{i}/n.

几何平均数(Geometric Mean)

如果该集合里面的数字都是非负数,那么可以定义其几何平均数为

G_{n}=\sqrt[n]{x_{1}\cdots x_{n}}.

从高中的数学知识可以得到几何平均数不大于算术平均数。

调和平均数(Harmonic Mean)

如果该集合里面的数字都是正数,那么可以定义其调和平均数为

H_{n}=n/(x_{1}^{-1}+\cdots+x_{n}^{-1}).

平方平均数(Quadratic Mean)

平方平均数指的是

Q_{n}=\sqrt{\frac{\sum_{i=1}^{n}x_{i}^{2}}{n}}.

Theorem. 如果 x_{1},\cdots, x_{n} 都是正数,那么 H_{n}\leq G_{n}\leq A_{n}\leq Q_{n}. 也就是说,调和平均数\leq几何平均数\leq算术平均数\leq平方平均数。

proof. n=2 的情形证明如下图。其余可以用数学归纳法等多种方法证明。

二维均值不等式的几何证明
二维均值不等式的几何证明

方差(Variance),标准差(Standard Deviation)

方差和标准差反映了数据的波动情况,方差指的是 \sigma^{2}=\sum_{i=1}^{n}(x_{i}-\mu)^{2}/n. 而标准差则有两种情况,第一种是总体的样本差(population standard deviation),总体的标准差定义为方差正的平方根,记为 SD,

SD = \sigma = \sqrt{\frac{1}{n}(x_{i}-\overline{x})^{2}},

其中 \overline{x}=\sum_{i=1}^{n}x_{i}/n.

第二种是样本的标准差(sample standard deviation),此时集合 \{x_{1},\cdots,x_{n}\} 是从一个更大的总体抽样出来的部分数据。样本的标准差记为 s, s 的定义为

s = \sqrt{\frac{1}{n-1}\sum_{i=1}^{n}(x_{i}-\overline{x})^{2}},

其中 \overline{x}=\sum_{i=1}^{n}x_{i}/n.

众数(Mode)

众数指的是这个集合 \{x_{1},\cdots,x_{n}\} 中出现得最多的数字。

k 阶矩(k Moment),k 阶中心矩(k Central Moment)

k 阶矩指的是

m_{k} = \sum_{i=1}^{n}x_{i}^{k}/n,

它称为样本的 k 阶矩,它反映了样本总体的信息。显然,m_{1} 就是算术平均数。

k 阶中心矩指的是

\mu_{k} = \sum_{i=1}^{n}(x_{i}-\overline{x})^{k}/n,

它称为样本的 k 阶中心矩,它反映了样本距离均值的情况。显然,\mu_{2} 就是样本方差。

偏度(Skewness)

偏度定义为

\sum_{i=1}^{n}\frac{1}{n}\cdot\frac{(x_{i}-\overline{x})^{3}}{\sigma^{3}}=\frac{\mu_{3}}{\sigma^{3}}.

n 个样本的样本偏度(sample skewness)定义为 \mu_{3}/s^{3}, 其中 s 是样本的标准差,i.e s = \sqrt{\frac{1}{n-1}\sum_{i=1}^{n}(x_{i}-\overline{x})^{2}}.

而另外常见的一种样本偏度定义为 \frac{n^{2}}{(n-1)(n-2)}\cdot \frac{\mu_{3}}{s^{3}}. 而偏度的结果可以是正数,负数,或者零。分别被称为 Positive Skew(右侧的尾巴更长),  Negative Skew(左侧的尾巴更长) 和 Zero Skew。当均值等于中位数等于众数的时候,该概率分布是对称的。Median(中位数)相对于 Mean(均值)是更加接近 Mode(众数)的数字,因此根据 Median 和 Mean 的大小关系也能够大致判断 Skew(偏度)的趋势。

skewness_1
偏度的两种类型
skewness_2
中位数,众数,平均数,偏度

峰度(Kurtosis)

n 个样本的样本峰度(sample kurtosis)可以定义为:\frac{\mu_{4}}{\mu_{2}^{2}} - 3, 其中 \mu_{4} = \sum_{i=1}^{n}(x_{i}-\overline{x})^{4}/n, \mu_{2}=\sum_{i=1}^{n}(x_{i}-\overline{x})^{2}/n. 减去 3 的目的是为了让正态分布的峰度为零。

Theorem. 正态分布 4 阶距的值是 3。

Proof. 需要计算 \frac{1}{\sqrt{2\pi}}\int_{-\infty}^{+\infty}x^{4}e^{-\frac{x^{2}}{2}}dx 的值。可以使用极坐标的方法来解决,首先通过坐标变换可以得到原式子等于 \frac{4}{\sqrt{\pi}}\int_{-\infty}^{+\infty}x^{4}e^{-x^{2}}dx. 其次,令 A=\int_{-\infty}^{+\infty}x^{4}e^{-x^{2}}dx, 可以得到

A^{2}=\int_{-\infty}^{+\infty}\int_{-\infty}^{+\infty}x^{4}y^{4}e^{-x^{2}-y^{2}}dxdy

= \int_{0}^{2\pi}\cos^{4}(\theta)\sin^{4}(\theta)d\theta \cdot \int_{0}^{+\infty}r^{9}e^{-r^{2}}dr

= \frac{3\pi}{64}\cdot 12=\frac{9}{16}\pi.

进一步得到 A=\frac{3}{4}\sqrt{\pi}. 从而原式子等于 3。i.e. 正态分布 4 阶距的值是 3。

中位数(Median)

中位数指的是将集合中的数字从小到大排序之后得到的有序数列,中间的那个数字。如果的数列的长度是偶数,则取中间两个数的平均值。

median
中位数的计算案例

带权重的算术平均数(Weighted Arithmetic Mean)

对于一组数据 \{x_{1},x_{2},\cdots,x_{n}\}, 可以设置其一组正数权重 \{w_{1},\cdots,w_{n}\}, 然后得到其带权重的算术平均数为

\sum_{i=1}^{n}w_{i}x_{i}/\sum_{i=1}^{n}w_{i}.

截断平均数(Truncated Mean)

截断平均数是舍弃掉样本中最高和最低的一些样本之后再计算得到的平均值,并且最高和最低两端舍弃的样本数量一致。舍弃的样本数量可以是整体资料数量的占比,也可以是一个固定的数量。

发散度量(measure of dispersion)

四分位距(interquartile range,IQR)

四分位距(IQR),也被称为 midspread,middle 50%,H-spread,它等于 75th 百分位数与 25th 百分位数的差值,也就是

IQR = Q_{3}-Q_{1}.

其中,对于长度为 2n 或者 2n+1 的数列而言,Q_{1} 就是 n 个最小数的中位数,也就是 Q_{1} 在有序数列从小到大排序的 25% 位置。Q_{3} 就是 n 个最大数的中位数,也就是 Q_{3} 在有序数列从小到大排序的 75% 的位置。IQR 反映了数据的集中程度,IQR 越小,表示数据越集中于 median 附近;IQR 越大,表示数据越发散于两端。

IQR_1
正态分布的箱形图

用箱形图(boxplot)作异常检测的时候,上下界分别定义为 Q_{3}+1.5 \cdot IQR, Q_{1}-1.5 \cdot IQR.

IQR_2
四分位距的案例

在上述案例中,Q_{1} = 31, Q_{2}=87, Q_{3} = 119, 从而四分位距 IQR = Q_{3}-Q_{1}=88. 异常检测的上下界分别是 Q_{3}+1.5\cdot IQR = 251, Q_{1}-1.5\cdot IQR = -101.

四分位发散系数(quartile coefficient of dispersion)

四分位发散系数也是用于衡量数据集中程度的,对于不同的序列而言,IQR 并没有在一个尺度下进行衡量,无法通过直接对比两个序列的 IQR 来判断它们之间的发散程度(需要先对两个序列进行归一化才行)。于是,有学者提出了另外一种衡量方法,就是四分位发散系数,它的定义就是

(Q_{3}-Q_{1})/(Q_{3}+Q_{1}).

例如:X=\{2, 4, 6, 8, 10, 12, 14\}Y=\{1.8, 2, 2.1, 2.4, 2.6, 2.9, 3\} 两个集合。对于 X 而言,Q_{1}=4,Q_{2}=8,Q_{3}=12, 它的 IQR=Q_{3}-Q_{1}=8, 四分位发散系数为 (Q_{3}-Q_{1})/(Q_{3}+Q_{1})=0.5; 对于 Y 而言,Q_{1}=2,Q_{2}=2.4,Q_{3}=2.9, 它的 IQR=Q_{3}-Q_{1}=0.9,四分位发散系数为 (Q_{3}-Q_{1})/(Q_{3}+Q_{1})=0.1837. 因此集合 X 的四分位发散系数比 Y 的四分位发散系数要大,XY 更加发散。

范围(range)

在统计学中,对于集合 \{x_{1},\cdots,x_{n}\} 而言,它的最大值减去最小值的差值就是范围。i.e.

range = \max_{1\leq i\leq n}\{x_{1},\cdots,x_{n}\}-\min_{1\leq i\leq n}\{x_{1},\cdots,x_{n}\}.

该值越大,表示集合的最大值与最小值的差异越大,数据更加发散;该值越小,表示集合的最大值与最小值的差异越小,数据就更加集中。

平均绝对偏差(Mean Absolute Difference)

对于集合 X=\{x_{1},\cdots,x_{n}\} 而言,平均绝对偏差(Mean Absolute Difference)定义为:

MD(X)=\frac{\sum_{i=1}^{n}\sum_{j=1}^{n}|x_{i}-x_{j}|}{n(n-1)}.

相对平均绝对偏差(Relative Mean Absolute Difference)则定义为:

RMD(X) = \frac{\sum_{i=1}^{n}\sum_{j=1}^{n}|x_{i}-x_{j}|}{(n-1)\sum_{i=1}^{n}x_{i}}.

通过相对平均绝对偏差可以对比两个集合之间的偏差程度。

中位数绝对偏差(median absolute deviation)

中位数绝对偏差定义为 MAD=median(\{|x_{i}-\tilde{x}|,1\leq i\leq n\}), 其中 \tilde{x}=median(\{x_{1},\cdots,x_{n}\}), 可以看出数据的偏移程度。

变异系数(coefficient of variation)

变异系数指的是标准差除以均值,i.e.

cv=\frac{\sigma}{\mu},

它表示了集合数据相对于均值的波动程度。

例如:X=\{10,10,10\}, Y=\{9,10,11\}, Z=\{1, 5, 6, 8, 10, 40, 65, 88\}, 通过定义可以计算出它们的变异系数 cv(X)=0, cv(Y)=0.1, cv(Z)=32.9/27.9=1.18. 变异系数越大,表示集合的数据波动程度越大。变异系数越小,表示集合的数据波动程度越小。

参考资料

  1. 集中趋势:https://en.wikipedia.org/wiki/Central_tendency
  2. 离散程度:https://en.wikipedia.org/wiki/Statistical_dispersion
  3. 描述统计学:https://zh.wikipedia.org/wiki/%E6%8F%8F%E8%BF%B0%E7%BB%9F%E8%AE%A1%E5%AD%A6
  4. 数据分析的基础—统计学之描述性统计(一):https://zhuanlan.zhihu.com/p/33544707
  5. 数据分析的基础—统计学之描述性统计(二):https://zhuanlan.zhihu.com/p/34073898