学信号处理要理解均值、平均偏差、标准差、方差

遇到一些朋友说信号处理真难，学是很辛苦的学了，就是不知道怎么用。学而不能致用，如此辛苦的学习就有点费时费力了。当然本文也并非想说学必致用，有的东西学了还真不见得能用上。只不过学过的，想用的要会用则达到学的目的了。此言：学以致用，学能致用！谨与诸君共勉！

很多时候，为什么学而不能致用呢？没有用的需求，当然就不说了。往往不会用，是因为不知道怎么去用，而不知道怎么用，个人觉得很重要的原因是因为很多基础的概念没有理解到位，对于工程技术人员而言，对于基础概念的理解把握，往往决定了解决问题的方向、思路、深度。以信号处理来说，里面就有大量的基础概念需要真正去理解。本文就来聊聊如何去描述度量信号的几个概念。

均值

信号处理中一个最为简单的概念就是均值(Mean)，和你想的一样，加起来除以样本数量：

在学习DSP时，要习惯各种数学表示的方案，比如这里就是表示求和，表示从开始求和。为了让都能看懂，这个公式换一个表达形式：

所以就是更为简洁的描述求和的数学语言。

对于这个公式在延申一下，这里是离散信号，如果是离散概率序列,对于确定的其概率为，则这样的离散概率分布序列，其均值则为：

其实，对于前一公式也可以用概率均值去理解，看成N个样本集合，则每一个样值其概率就是！

那么研究均值有啥意义呢？其实一般对于原始样本直接计算均值可能意义不是特别大，但是基于均值衍生的其他统计量则非常有价值，比如接下来要说的标准偏差，简称为标准差。

平均偏差

在谈标准差之前，先谈谈平均偏差。何为平均偏差，严格讲应该称为平均绝对偏差(Average Absolute Deviation)，在谈平均绝对偏差前，先谈谈绝对偏差,绝对偏差，从字面意义上理解，很容易可以想到其计算这样是这样得来，由某样本与均值的差的绝对值：

那么平均绝对偏差，所差的就是一个平均了：

来试着理解一下这个公式，是任一样本与该样本集均值的差的绝对值，表示的是该样本与均值的偏离程度，每个样本与均值的偏离程度之和再求平均，则就是字面意思了，所有样本与平均值的偏离程度，故称为平均偏差。

平均偏差可以反应样本点与均值的平均偏离程度。

标准偏差

标准偏差(Standard Deviation)与平均偏差(Average Deviation)类似，也是基于平均值的统计量。所不同的是，标准差是利用样本与均值绝对偏差的平方和求取的。

标准差反应信号相对平均值的波动程度。标准差数值越小，反应信号数值分布更靠近平均值，反之越大则表示信号相对平均值更分散

标准偏差根据样本是研究样本的总体，还是只是收集的部分样本而分为两种情况：

总体标准偏差样本标准偏差

总体标准偏差

如果仅将数据视为总体，则可以将其各点绝对偏差之和除以数据点总数N，而后开平方：

样本标准偏差

如果待研究的数据看成待研究系统数据的部分，则可以将其各点绝对偏差之和除以数据点总数N-1，而后开平方：

看到这个公式，有的盆友或许会问，为啥除的是N-1？而不是N！所以这个就是对这个概念需要理解的一个点：

这里计算的是样本的标准偏差，总体标准偏差公式是基于正态分布推导而来，所以总体标准差公式是除以N，而在应用中，不是数学统计的意义，只能以有限的样本序列去近似描述总体的特征，除以N-1是一种无偏估计，所谓无偏估计，是指无偏性，无偏性的实际意义是指没有系统性的偏差。在多次重复下，它们的平均数接近所估计的参数真值。

我们计算这个参数，就是想利用这个参数去反应样本序列集的客观特征，所计算的样本序列往往可能只是截取的数据段，并非所有的数据样本。在信号处理中，我们拿到的数据一般而言都是系统的部分样本，所以实际使用中应该使用样本标准差进行计算。

对于标准偏差的理解，还有一层需要理解透，它的量纲仍然是原样本的量纲，比如研究的是电压信号，单位为伏，则计算而得的标准偏差依然是伏。

有趣的栗子

在国外网站上看到一组有趣的图片，可以更好的帮助理解：

https://www.mathsisfun.com/data/standard-deviation.html

假设有这样几种可爱的狗狗：其身高分别为：600mm, 470mm, 170mm, 430mm, 300mm.

则其均值为：

所以上图中用绿色线标识下身高均值：

从而每个狗相对均值的偏差如下图：

从而，其标准差则为：

然后再标识一下每个狗的身高

上图可看出第2、4、5个狗的身高与均值的偏差在一个标准差内，而第1、3只狗身高与均值超出了一个标准差。标准差概念也经常用来衡量产品的生成品质，比如你常听到的说法，这个零件的加工偏差是否在一个标准差内，这里的标准差就是标准偏差的意思。

上面的公式如果不开平方，这就是常说的方差了，类似有两种概念：

样本方差：

总体方差：

再来个栗子

前面说标准差，常用来衡量数据的分布情况：

标准差反应信号相对平均值的波动程度。标准差数值越小，反应信号数值分布更靠近平均值，反之越大则表示信号相对平均值更分散

为啥这样说，看看下面这个栗子就好理解了：

假设有这样三组数据，假定这三组数据来自三个同类型传感器的采样值，对相同的外界多次采样(这里为了说明问题，请不用考虑数据本身的合理性)，我们来计算一下其均值、平均偏差、样本标准差。

1	3	5	7	9	11	13	15	17	19
2	4	5	7	8	9	13	15	13	24
3	5	5	7	7	8	10	12	13	30

三组数据连同其均值绘制成曲线：

第1组：

第2组：

第3组：

从曲线图我们可以很直观的看出第1个传感器表现更好，那么如何用一个特征值来区分呢？如用平均绝对偏差显然并不能很好的描述，三组数据均值相同，无法区分三个传感器的表现，因为计算出平均绝对偏差相同。如用样本标准差进行度量，则可以得出：

其物理含义，表示第1组数据分布程度相对更为靠近平均值。

总结一下

均值、平均偏差、标准偏差、方差是信号处理几个基础概念，尤其标准差、方差在很多复杂的滤波算法、估计算法中是重要的理论基础概念。所以准确的理解这些概念，也是能理解更为复杂的算法的基础。所谓基础不牢、地动山摇！