小胖机器人哪儿有卖:使用方差度量数据波动的优点

来源:百度文库 编辑:高校问答 时间:2024/05/03 12:24:30
方差是实际值与期望值之差平方的平均值,
用于度量一组数据的偏差程度。
但是,为什么会使用与数据期望的差的平方的均值来度量“偏差程度”,
而不使用与数据期望的差的绝对值的均值来度量呢?
我想应该会有统计学上的考虑吧,
这里请教了。
谢谢9192631770的补充,
您提到“各种统计量并没有严格意义上的优劣,要根据具体情况来选用”,之后论述了可导是选用方差的一个理由。
能再给我举一个适合使用“平均偏差”的例子(具体情况)吗?
谢谢!

楼上说的是一个方面。实际上,实际值与数据期望的差的绝对值的均值也可以度量数据波动,在统计上被称为平均偏差,衡量数据波动的统计量还有极差、四分位差等。各种统计量并没有严格意义上的优劣,要根据具体情况来选用。

之所以经常用方差,除了楼上说的原因,还有一个很重要的原因是,以平方和的形式表示的方差是可导的,公式推导的时候方便一些。平均偏差的表达式由于绝对值的存在,在零点不可导。

——————————————————
采用何种统计量主要取决于数据的分布和统计的目的。平均偏差和方差的一大区别在于对个别偏差较大的值的处理。比如下面两组值:

A:10 10 10 10 10 10 10 10 10 110
B:10 50 10 50 10 50 10 50 10 50
方差:A为1000,B为444
平均偏差:A为180,B为200

如果你认为个别异常数据对数据质量影响较大的话,就选用方差;如果你认为正常数据的波动更有意义就选平均偏差。
其实统计是种很主观的东西,统计量的选择服务于你想要说明的现象。

现代统计学有一个概念叫“稳健”,就是个别异常值对统计量的影响程度,从这个角度来说,平均偏差比方差稳健。

总的来说,采用均方意义下得计量标准是出于人类所处得世界得根本几何规律使然。单纯用差的绝对值的均值或其他得定义来讲在数学上可行,但没有物理意义。
首先,人们提出方差的初动因是想找出试验得到的数据与期望之间的差距,也就是形象来讲的“距离”。在人们普遍承认的欧几里得空间中,距离得定义就是空间各个点各个分量于标准数值作差所得平方的均值,所以推而广之,在处理数据中也就用了同样得方法。而且这样有几何学上得考虑。当你把所有数据画在一张图标上时,各个点与标准线作差再平方取和,就是所有数据点距离标准的距离的平方得和,其平均值就是总得平均数据与标准得距离的平方,代表了数据于标准数据的平均距离,有着极强的几何背景。

当然,如果你采用得其他度量空间,比如其他流型上得诡异空间,其度量也不同,距离得定义也不同,但是,总的规律不变,而且在实际应用中,欧几里得的定义和适用范围都很广,所以大多数情况下都是用均方意义下得平均值,就是方差,作为统计数据得计量标准。

直观