統計是「用數字說故事」的學問。拿到一堆數據,如何提煉出有意義的資訊?如何比較兩組資料的差異?這一章的核心,就是學會計算並正確解讀幾個關鍵的統計量。
集中趨勢描述的是「資料聚集在什麼位置」。最常見的三個指標:
平均數(Mean):所有資料的總和除以資料個數。最敏感,容易受到極端值(outlier)影響。
中位數(Median):將資料由小到大排序後,位於中間的那個數值。不受極端值影響,對於偏態資料特別有意義。
眾數(Mode):出現次數最多的資料值。適用於類別資料(如調查最受歡迎的科系)。
範例:5 位同學的月考成績為:58, 72, 75, 80, 95
平均數 = (58+72+75+80+95)/5 = 76
中位數 = 75(第三個,中間值)
眾數:沒有重複分數,故無眾數
光看集中趨勢是不夠的。兩組資料可能平均數相同,但分佈差異很大。這時候需要變異數與標準差來描述資料的分散程度。
標準差的意義是「資料偏離平均數的平均程度」。以考试成绩為例,標準差大表示有人很高分、有人很低分;標準差小表示大家程度接近。
兩者的分母不同:
為什麼樣本要除以 N−1?因為用樣本計算變異數時會低估母體變異數,除以 N−1(伯恩賽德-桑格自由度校正)可以獲得更好的無偏估計。高中階段這個區別考試通常會明確標示。
當兩組資料的單位不同時,無法直接用標準差比較。變異係數(CV)解決了這個問題:
範例:某班數學平均 75 分、標準差 10;英文平均 80 分、標準差 12。哪一科分數差異更大?
數學 CV = 10/75 ≈ 13.3%,英文 CV = 12/80 = 15% → 英文分數差異更大。
百分位數用於了解資料的相對位置。第 p 百分位數表示有 p% 的資料小於等於這個值。盒鬚圖(Box Plot)用五個數来概括資料分佈:最小值、Q1(第一四分位)、中位數、Q3(第三四分位)、最大值。
盒鬚圖的好處是能一眼看出資料的偏斜程度:如果中位數不在盒子正中央,就表示資料有偏態。
Z分數是將資料標準化後的分數:
Z分數表示「這個資料偏離平均數多少個標準差」。Z = 1.5 表示這個資料比平均數高 1.5 個標準差。
這個概念在常態分配中特別重要,因為有 68% 的資料落在 μ±σ 範圍內,95% 落在 μ±2σ 範圍內。
統計量不是冰冷的數字——每一個數字背後都有其意義。看到平均數,先問:「這個平均數代表什麼?資料分佈均不均?」培養這種批判性思考的習慣,比學會計算更重要。