統計量與資料分析

統計 · 閱讀時間約 14 分鐘

統計是「用數字說故事」的學問。拿到一堆數據，如何提煉出有意義的資訊？如何比較兩組資料的差異？這一章的核心，就是學會計算並正確解讀幾個關鍵的統計量。

一、集中趨勢——平均數、中位數、眾數

集中趨勢描述的是「資料聚集在什麼位置」。最常見的三個指標：

平均數（Mean）：所有資料的總和除以資料個數。最敏感，容易受到極端值（outlier）影響。

中位數（Median）：將資料由小到大排序後，位於中間的那個數值。不受極端值影響，對於偏態資料特別有意義。

眾數（Mode）：出現次數最多的資料值。適用於類別資料（如調查最受歡迎的科系）。

範例：5 位同學的月考成績為：58, 72, 75, 80, 95

平均數 = (58+72+75+80+95)/5 = 76

中位數 = 75（第三個，中間值）

眾數：沒有重複分數，故無眾數

光看集中趨勢是不夠的。兩組資料可能平均數相同，但分佈差異很大。這時候需要變異數與標準差來描述資料的分散程度。

變異數 σ² = Σ(x_i − μ)² / N　（母體）
標準差 σ = √(σ²)

標準差的意義是「資料偏離平均數的平均程度」。以考试成绩為例，標準差大表示有人很高分、有人很低分；標準差小表示大家程度接近。

兩者的分母不同：

為什麼樣本要除以 N−1？因為用樣本計算變異數時會低估母體變異數，除以 N−1（伯恩賽德-桑格自由度校正）可以獲得更好的無偏估計。高中階段這個區別考試通常會明確標示。

當兩組資料的單位不同時，無法直接用標準差比較。變異係數（CV）解決了這個問題：

CV = (標準差 / 平均數) × 100%

範例：某班數學平均 75 分、標準差 10；英文平均 80 分、標準差 12。哪一科分數差異更大？

數學 CV = 10/75 ≈ 13.3%，英文 CV = 12/80 = 15% → 英文分數差異更大。

百分位數用於了解資料的相對位置。第 p 百分位數表示有 p% 的資料小於等於這個值。盒鬚圖（Box Plot）用五個數来概括資料分佈：最小值、Q1（第一四分位）、中位數、Q3（第三四分位）、最大值。

盒鬚圖的好處是能一眼看出資料的偏斜程度：如果中位數不在盒子正中央，就表示資料有偏態。

Z分數是將資料標準化後的分數：

Z = (x − μ) / σ

Z分數表示「這個資料偏離平均數多少個標準差」。Z = 1.5 表示這個資料比平均數高 1.5 個標準差。

這個概念在常態分配中特別重要，因為有 68% 的資料落在 μ±σ 範圍內，95% 落在 μ±2σ 範圍內。

統計量不是冰冷的數字——每一個數字背後都有其意義。看到平均數，先問：「這個平均數代表什麼？資料分佈均不均？」培養這種批判性思考的習慣，比學會計算更重要。