一、基本概念
1. 平均数(MEAN)
* 定义:一组数据的总和除以数据的个数
* 计算公式:xˉ=∑i=1nxin\bar{x} = \frac{\sum\limits_{i=1}^{n} x_i}{n}xˉ=ni=1∑n xi
* 加权平均数:xˉw=∑i=1nwixi∑i=1nwi\bar{x}_w = \frac{\sum\limits_{i=1}^{n} w_i x_i}{\sum\limits_{i=1}^{n} w_i}xˉw =i=1∑n wi i=1∑n wi xi
* 性质:
* ∑i=1n(xi−xˉ)=0\sum\limits_{i=1}^{n} (x_i - \bar{x}) = 0i=1∑n (xi −xˉ)=0
* 最小二乘性质:∑i=1n(xi−c)2\sum\limits_{i=1}^{n} (x_i - c)^2i=1∑n (xi −c)2 在 c=xˉc = \bar{x}c=xˉ 时取最小值
2. 中位数(MEDIAN)
* 定义:将数据按大小顺序排列后,位于中间位置的值
* 计算公式:
* 当 nnn 为奇数时:M=x(n+12)M = x_{\left(\frac{n+1}{2}\right)}M=x(2n+1 )
* 当 nnn 为偶数时:M=x(n2)+x(n2+1)2M = \frac{x_{\left(\frac{n}{2}\right)} + x_{\left(\frac{n}{2}+1\right)}}{2}M=2x(2n ) +x(2n +1)
* 分组数据中位数公式:M=L+n2−Ff×cM = L + \frac{\frac{n}{2} - F}{f} \times cM=L+f2n −F ×c
* LLL:中位数所在组的下限
* nnn:总频数
* FFF:中位数所在组前一组的累计频数
* fff:中位数所在组的频数
* ccc:组距
3. 众数(MODE)
* 定义:数据中出现次数最多的数值
* 分组数据众数公式:Mo=L+Δ1Δ1+Δ2×cM_o = L + \frac{\Delta_1}{\Delta_1 + \Delta_2} \times cMo =L+Δ1 +Δ2 Δ1 ×c
* LLL:众数所在组的下限
* Δ1\Delta_1Δ1 :众数所在组频数与前一组的频数差
* Δ2\Delta_2Δ2 :众数所在组频数与后一组的频数差
* ccc:组距
二、方差和标准差
1. 方差(VARIANCE)
* 定义:各数据与平均数之差的平方的平均数
* 总体方差:σ2=∑i=1N(xi−μ)2N\sigma^2 = \frac{\sum\limits_{i=1}^{N} (x_i - \mu)^2}{N}σ2=Ni=1∑N (xi −μ)2
* 样本方差:s2=∑i=1n(xi−xˉ)2n−1s^2 = \frac{\sum\limits_{i=1}^{n} (x_i - \bar{x})^2}{n-1}s2=n−1i=1∑n (xi −xˉ)2
* 计算公式推导:
s2=1n−1∑i=1n(xi−xˉ)2=1n−1[∑i=1nxi2−nxˉ2]=1n−1[∑i=1nxi2−1n(∑i=1nxi)2]\begin{aligned} s^2 &= \frac{1}{n-1} \sum_{i=1}^{n} (x_i - \bar{x})^2 \\ &= \frac{1}{n-1} \left[ \sum_{i=1}^{n} x_i^2 - n\bar{x}^2 \right] \\ &= \frac{1}{n-1} \left[ \sum_{i=1}^{n} x_i^2 - \frac{1}{n} \left( \sum_{i=1}^{n} x_i
\right)^2 \right] \end{aligned} s2 =n−11 i=1∑n (xi −xˉ)2=n−11 [i=1∑n xi2 −nxˉ2]=n−11 i=1∑n xi2 −n1 (i=1∑n xi )2
2. 标准差(STANDARD DEVIATION)
* 定义:方差的算术平方根
* 总体标准差:σ=σ2\sigma = \sqrt{\sigma^2}σ=σ2
* 样本标准差:s=s2s = \sqrt{s^2}s=s2
3. 方差的性质
1. Var(aX+b)=a2Var(X)\text{Var}(aX + b) = a^2 \text{Var}(X)Var(aX+b)=a2Var(X)
2. Var(X+Y)=Var(X)+Var(Y)+2Cov(X,Y)\text{Var}(X + Y) = \text{Var}(X) + \text{Var}(Y) + 2\text{Cov}(X,Y)Var(X+Y)=Var(X)+Var(Y)+2Cov(X,Y)
3. 若 XXX 与 YYY 独立,则 Var(X+Y)=Var(X)+Var(Y)\text{Var}(X + Y) = \text{Var}(X) + \text{Var}(Y)Var(X+Y)=Var(X)+Var(Y)
三、方差定理
定理1:方差分解定理
对于任意常数 ccc,有:
∑i=1n(xi−c)2=∑i=1n(xi−xˉ)2+n(xˉ−c)2\sum_{i=1}^{n} (x_i - c)^2 = \sum_{i=1}^{n} (x_i - \bar{x})^2 + n(\bar{x} - c)^2 i=1∑n (xi −c)2=i=1∑n (xi −xˉ)2+n(xˉ−c)2
证明:
∑i=1n(xi−c)2=∑i=1n[(xi−xˉ)+(xˉ−c)]2=∑i=1n(xi−xˉ)2+2(xˉ−c)∑i=1n(xi−xˉ)+n(xˉ−c)2=∑i=1n(xi−xˉ)2+n(xˉ−c)2(因为∑i=1n(xi−xˉ)=0)\begin{aligned} \sum_{i=1}^{n} (x_i - c)^2 &= \sum_{i=1}^{n} [(x_i - \bar{x}) + (\bar{x} - c)]^2 \\ &= \sum_{i=1}^{n} (x_i - \bar{x})^2 + 2(\bar{x} - c)\sum_{i=1}^{n}(x_i - \bar{x})
+ n(\bar{x} - c)^2 \\ &= \sum_{i=1}^{n} (x_i - \bar{x})^2 + n(\bar{x} - c)^2 \quad (\text{因为}\sum_{i=1}^{n}(x_i - \bar{x}) = 0) \end{aligned} i=1∑n (xi −c)2 =i=1∑n [(xi −xˉ)+(xˉ−c)]2=i=1∑n (xi −xˉ)2+2(xˉ−c)i=1∑n (xi −xˉ)+n(xˉ−c)2=i=1∑n (xi −xˉ)2+n(xˉ−c)2(因为i=1∑n (xi −xˉ)=0)
定理2:切比雪夫不等式
对于任意随机变量 XXX 具有有限期望 μ\muμ 和方差 σ2\sigma^2σ2,对任意 k>0k > 0k>0,有:
P(∣X−μ∣≥kσ)≤1k2P(|X - \mu| \geq k\sigma) \leq \frac{1}{k^2} P(∣X−μ∣≥kσ)≤k21
或等价地:
P(∣X−μ∣≥ε)≤σ2ε2P(|X - \mu| \geq \varepsilon) \leq \frac{\sigma^2}{\varepsilon^2} P(∣X−μ∣≥ε)≤ε2σ2
定理3:分组数据方差计算公式
对于分组数据:
s2=1n−1[∑fimi2−(∑fimi)2n]s^2 = \frac{1}{n-1} \left[ \sum f_i m_i^2 - \frac{(\sum f_i m_i)^2}{n} \right] s2=n−11 [∑fi mi2 −n(∑fi mi )2 ]
其中 fif_ifi 是频数,mim_imi 是组中值,n=∑fin = \sum f_in=∑fi 。
四、三者的比较
特征 平均数 中位数 众数 方差/标准差 计算依据 所有数据 位置居中 出现频率 离散程度 对异常值 敏感 不敏感 不敏感 敏感 数据要求 定量数据 定量或有序 各类数据 定量数据 计算公式 ∑xin\frac{\sum x_i}{n}n∑xi 排序找中间 统计频数 ∑(xi−xˉ)2n−1\frac{\sum (x_i-\bar{x})^2}{n-1}n−1∑(xi −xˉ)2 单位 与原数据相同 与原数据相同 与原数据相同 平方单位/原单位
五、应用例题
例题1:基本计算
数据:{12, 15, 18, 20, 20, 25, 30, 35, 40}
计算:
1. 平均数:xˉ=12+15+18+20+20+25+30+35+409=2159≈23.89\bar{x} = \frac{12+15+18+20+20+25+30+35+40}{9} = \frac{215}{9} \approx 23.89xˉ=912+15+18+20+20+25+30+35+40 =9215 ≈23.89
2. 中位数:排序后第5个数是20
3. 众数:20(出现2次)
4. 样本方差:
s2=18[∑xi2−9xˉ2]=18[(144+225+324+400+400+625+900+1225+1600)−9×570.9]=18[5843−5138.1]=704.98=88.11\begin{aligned} s^2 &= \frac{1}{8} \left[ \sum x_i^2 - 9\bar{x}^2 \right] \\ &= \frac{1}{8} \left[ (144+225+324+400+400+625+900+1225+1600) - 9 \times 570.9 \right] \\ &= \frac{1}{8} \left[ 5843 -
5138.1 \right] = \frac{704.9}{8} = 88.11 \end{aligned} s2 =81 [∑xi2 −9xˉ2]=81 [(144+225+324+400+400+625+900+1225+1600)−9×570.9]=81 [5843−5138.1]=8704.9 =88.11
5. 标准差:s=88.11≈9.39s = \sqrt{88.11} \approx 9.39s=88.11 ≈9.39
例题2:方差定理应用
数据:{4, 5, 6, 7, 8},验证方差分解定理,取 c=5c=5c=5
计算:
* xˉ=6\bar{x} = 6xˉ=6
* ∑(xi−5)2=1+0+1+4+9=15\sum (x_i - 5)^2 = 1+0+1+4+9 = 15∑(xi −5)2=1+0+1+4+9=15
* ∑(xi−6)2=4+1+0+1+4=10\sum (x_i - 6)^2 = 4+1+0+1+4 = 10∑(xi −6)2=4+1+0+1+4=10
* n(xˉ−5)2=5×1=5n(\bar{x} - 5)^2 = 5 \times 1 = 5n(xˉ−5)2=5×1=5
* 验证:15=10+515 = 10 + 515=10+5,成立
例题3:分组数据计算
数据:
成绩区间 人数 60-70 5 70-80 12 80-90 18 90-100 5
计算:
1. 平均数:xˉ=65×5+75×12+85×18+95×540=325+900+1530+47540=323040=80.75\bar{x} = \frac{65\times5 + 75\times12 + 85\times18 + 95\times5}{40} = \frac{325+900+1530+475}{40} = \frac{3230}{40} = 80.75xˉ=4065×5+75×12+85×18+95×5 =40325+900+1530+475 =403230 =80.75
2. 中位数:n=40n=40n=40,中位数位置=20.5,在80-90组
M=80+20−1718×10=80+1.67=81.67M = 80 + \frac{20-17}{18} \times 10 = 80 + 1.67 = 81.67M=80+1820−17 ×10=80+1.67=81.67
3. 众数:在80-90组(频数最大)
Mo=80+18−12(18−12)+(18−5)×10=80+66+13×10=80+3.16=83.16M_o = 80 + \frac{18-12}{(18-12)+(18-5)} \times 10 = 80 + \frac{6}{6+13} \times 10 = 80 + 3.16 = 83.16Mo =80+(18−12)+(18−5)18−12 ×10=80+6+136 ×10=80+3.16=83.16
4. 样本方差:
s2=139[5×652+12×752+18×852+5×952−40×80.752]=139[21125+67500+130050+45125−40×6520.56]=139[263800−260822.4]=2977.639=76.35\begin{aligned} s^2 &= \frac{1}{39} \left[ 5\times65^2 + 12\times75^2 + 18\times85^2 + 5\times95^2 - 40\times80.75^2 \right] \\ &= \frac{1}{39} \left[ 21125+67500+130050+45125
- 40\times6520.56 \right] \\ &= \frac{1}{39} \left[ 263800 - 260822.4 \right] = \frac{2977.6}{39} = 76.35 \end{aligned} s2 =391 [5×652+12×752+18×852+5×952−40×80.752]=391 [21125+67500+130050+45125−40×6520.56]=391 [263800−260822.4]=392977.6 =76.35
5. 标准差:s=76.35≈8.74s = \sqrt{76.35} \approx 8.74s=76.35 ≈8.74
六、偏度与峰度
1. 偏度系数
* 定义:衡量数据分布不对称程度的统计量
* 计算公式:g1=1n∑(xi−xˉ)3s3g_1 = \frac{\frac{1}{n}\sum(x_i-\bar{x})^3}{s^3}g1 =s3n1 ∑(xi −xˉ)3
* 解释:
* g1=0g_1 = 0g1 =0:对称分布
* g1>0g_1 > 0g1 >0:右偏(正偏),平均数 > 中位数 > 众数
* g1<0g_1 < 0g1 <0:左偏(负偏),平均数 < 中位数 < 众数
2. 峰度系数
* 定义:衡量数据分布尖峭程度的统计量
* 计算公式:g2=1n∑(xi−xˉ)4s4−3g_2 = \frac{\frac{1}{n}\sum(x_i-\bar{x})^4}{s^4} - 3g2 =s4n1 ∑(xi −xˉ)4 −3
* 解释:
* g2=0g_2 = 0g2 =0:正态分布的峰度
* g2>0g_2 > 0g2 >0:尖峰分布
* g2<0g_2 < 0g2 <0:平峰分布
七、记忆要点
1. 平均数:对所有数据敏感,适合对称分布
2. 中位数:对极端值稳健,适合偏态分布
3. 众数:反映最常见情况,适合分类数据
4. 方差:衡量离散程度,值越大越分散
5. 标准差:方差的平方根,与原数据同单位
6. 三者的关系:在对称分布中,平均数=中位数=众数
八、重要公式总结
1. 平均数:xˉ=∑xin\bar{x} = \frac{\sum x_i}{n}xˉ=n∑xi
2. 方差:s2=∑(xi−xˉ)2n−1=∑xi2−nxˉ2n−1s^2 = \frac{\sum (x_i - \bar{x})^2}{n-1} = \frac{\sum x_i^2 - n\bar{x}^2}{n-1}s2=n−1∑(xi −xˉ)2 =n−1∑xi2 −nxˉ2
3. 标准差:s=s2s = \sqrt{s^2}s=s2
4. 方差分解定理:∑(xi−c)2=∑(xi−xˉ)2+n(xˉ−c)2\sum (x_i - c)^2 = \sum (x_i - \bar{x})^2 + n(\bar{x} - c)^2∑(xi −c)2=∑(xi −xˉ)2+n(xˉ−c)2
5. 切比雪夫不等式:P(∣X−μ∣≥kσ)≤1k2P(|X-\mu| \geq k\sigma) \leq \frac{1}{k^2}P(∣X−μ∣≥kσ)≤k21