一、基本概念
1. 平均数(Mean)
- 定义:一组数据的总和除以数据的个数
- 计算公式:xˉ=ni=1∑nxi
- 加权平均数:xˉw=i=1∑nwii=1∑nwixi
- 性质:
- i=1∑n(xi−xˉ)=0
- 最小二乘性质:i=1∑n(xi−c)2 在 c=xˉ 时取最小值
2. 中位数(Median)
- 定义:将数据按大小顺序排列后,位于中间位置的值
- 计算公式:
- 当 n 为奇数时:M=x(2n+1)
- 当 n 为偶数时:M=2x(2n)+x(2n+1)
- 分组数据中位数公式:M=L+f2n−F×c
- L:中位数所在组的下限
- n:总频数
- F:中位数所在组前一组的累计频数
- f:中位数所在组的频数
- c:组距
3. 众数(Mode)
- 定义:数据中出现次数最多的数值
- 分组数据众数公式:Mo=L+Δ1+Δ2Δ1×c
- L:众数所在组的下限
- Δ1:众数所在组频数与前一组的频数差
- Δ2:众数所在组频数与后一组的频数差
- c:组距
二、方差和标准差
1. 方差(Variance)
2. 标准差(Standard Deviation)
- 定义:方差的算术平方根
- 总体标准差:σ=σ2
- 样本标准差:s=s2
3. 方差的性质
- Var(aX+b)=a2Var(X)
- Var(X+Y)=Var(X)+Var(Y)+2Cov(X,Y)
- 若 X 与 Y 独立,则 Var(X+Y)=Var(X)+Var(Y)
三、方差定理
定理1:方差分解定理
对于任意常数 c,有:
i=1∑n(xi−c)2=i=1∑n(xi−xˉ)2+n(xˉ−c)2
证明:
i=1∑n(xi−c)2=i=1∑n[(xi−xˉ)+(xˉ−c)]2=i=1∑n(xi−xˉ)2+2(xˉ−c)i=1∑n(xi−xˉ)+n(xˉ−c)2=i=1∑n(xi−xˉ)2+n(xˉ−c)2(因为i=1∑n(xi−xˉ)=0)
定理2:切比雪夫不等式
对于任意随机变量 X 具有有限期望 μ 和方差 σ2,对任意 k>0,有:
P(∣X−μ∣≥kσ)≤k21
或等价地:
P(∣X−μ∣≥ε)≤ε2σ2
定理3:分组数据方差计算公式
对于分组数据:
s2=n−11[∑fimi2−n(∑fimi)2]
其中 fi 是频数,mi 是组中值,n=∑fi。
四、三者的比较
| 特征 |
平均数 |
中位数 |
众数 |
方差/标准差 |
| 计算依据 |
所有数据 |
位置居中 |
出现频率 |
离散程度 |
| 对异常值 |
敏感 |
不敏感 |
不敏感 |
敏感 |
| 数据要求 |
定量数据 |
定量或有序 |
各类数据 |
定量数据 |
| 计算公式 |
n∑xi |
排序找中间 |
统计频数 |
n−1∑(xi−xˉ)2 |
| 单位 |
与原数据相同 |
与原数据相同 |
与原数据相同 |
平方单位/原单位 |
五、应用例题
例题1:基本计算
数据:{12, 15, 18, 20, 20, 25, 30, 35, 40}
计算:
- 平均数:xˉ=912+15+18+20+20+25+30+35+40=9215≈23.89
- 中位数:排序后第5个数是20
- 众数:20(出现2次)
- 样本方差:
s2=81[∑xi2−9xˉ2]=81[(144+225+324+400+400+625+900+1225+1600)−9×570.9]=81[5843−5138.1]=8704.9=88.11
- 标准差:s=88.11≈9.39
例题2:方差定理应用
数据:{4, 5, 6, 7, 8},验证方差分解定理,取 c=5
计算:
- xˉ=6
- ∑(xi−5)2=1+0+1+4+9=15
- ∑(xi−6)2=4+1+0+1+4=10
- n(xˉ−5)2=5×1=5
- 验证:15=10+5,成立
例题3:分组数据计算
数据:
| 成绩区间 |
人数 |
| 60-70 |
5 |
| 70-80 |
12 |
| 80-90 |
18 |
| 90-100 |
5 |
计算:
- 平均数:xˉ=4065×5+75×12+85×18+95×5=40325+900+1530+475=403230=80.75
- 中位数:n=40,中位数位置=20.5,在80-90组
M=80+1820−17×10=80+1.67=81.67
- 众数:在80-90组(频数最大)
Mo=80+(18−12)+(18−5)18−12×10=80+6+136×10=80+3.16=83.16
- 样本方差:
s2=391[5×652+12×752+18×852+5×952−40×80.752]=391[21125+67500+130050+45125−40×6520.56]=391[263800−260822.4]=392977.6=76.35
- 标准差:s=76.35≈8.74
六、偏度与峰度
1. 偏度系数
- 定义:衡量数据分布不对称程度的统计量
- 计算公式:g1=s3n1∑(xi−xˉ)3
- 解释:
- g1=0:对称分布
- g1>0:右偏(正偏),平均数 > 中位数 > 众数
- g1<0:左偏(负偏),平均数 < 中位数 < 众数
2. 峰度系数
- 定义:衡量数据分布尖峭程度的统计量
- 计算公式:g2=s4n1∑(xi−xˉ)4−3
- 解释:
- g2=0:正态分布的峰度
- g2>0:尖峰分布
- g2<0:平峰分布
七、记忆要点
- 平均数:对所有数据敏感,适合对称分布
- 中位数:对极端值稳健,适合偏态分布
- 众数:反映最常见情况,适合分类数据
- 方差:衡量离散程度,值越大越分散
- 标准差:方差的平方根,与原数据同单位
- 三者的关系:在对称分布中,平均数=中位数=众数
八、重要公式总结
- 平均数:xˉ=n∑xi
- 方差:s2=n−1∑(xi−xˉ)2=n−1∑xi2−nxˉ2
- 标准差:s=s2
- 方差分解定理:∑(xi−c)2=∑(xi−xˉ)2+n(xˉ−c)2
- 切比雪夫不等式:P(∣X−μ∣≥kσ)≤k21
有帮助,赞一个