統計學診斷基礎
研讀提醒:本章節之「假設檢定與推論統計」為中級科目 L221 重點。初級考生僅需理解平均數與中位數如何受異常值影響即可。
解讀數據的健康狀態 數據進入系統後,規劃師的首要任務是進行「探索性資料分析 (EDA)」。透過統計指標,我們可以判斷數據是否具有代表性,或是否存在足以摧毀模型準確度的「噪音」。
一、 集中趨勢:數據的中心在哪裡? 鑑定考試常考不同指標在「異常值」出現時的穩定性。
- 平均數 (Mean):
-
定義:所有數值總和除以次數。
-
缺點:極易受離群值 (Outliers) 影響。
-
案例:若一家公司 9 人月薪 3 萬,老闆月薪 100 萬,平均月薪會被拉高到 12 萬,無法代表基層現狀。
- 中位數 (Median):
-
定義:數據由小到大排列後,位居正中間的數值。
-
優點:具備穩健性 (Robustness),不受極端值影響。
-
考點:當數據分佈不均(偏態)時,中位數比平均數更能反映真實中心點。
- 眾數 (Mode):
-
定義:出現次數最多的數值。常用於處理類別型資料(如:哪個產品最熱銷)。
二、 離散程度:數據散得很開嗎? 了解數據的變異性,有助於評估 AI 預測的難度。
- 全距 (Range):最大值減最小值。最直觀但最粗略。
- 標準差 (Standard
Deviation):
-
定義:數據偏離平均值的平均距離。
-
意義:標準差大,表示數據波動劇烈(風險高);標準差小,表示數據穩定(易預測)。
- 四分位距 (IQR):
-
定義:第 75 百分位數 (Q3) 與第 25 百分位數 (Q1) 的差值。
-
應用:常配合箱型圖 (Boxplot) 來偵測離群值。
三、 診斷術:如何抓出離群值 (Outliers)? 離群值可能是系統錯誤(如:輸入錯誤),也可能是關鍵信號(如:信用卡盜刷)。包含「鑽取/向下分析 (Drill-down)」、「關聯分析(如啤酒與尿布)」以及「因果分析」等規劃師常用的診斷方法:
1. Z-分數 (Z-score) 法:
-
計算某數據點距離平均值有幾個標準差。
-
慣例上,當|Z| > 3(即超過三個標準差)時,通常視為異常值。
2. 箱型圖 (Boxplot) 法:
-
落在 [Q1 -
1.5 * IQR, Q3 + 1.5* IQR] 範圍外的點,即為離群值。
四、 數據分佈:常態分佈 (Normal Distribution) AI 模型(特別是線性模型)通常假設數據符合「鐘形曲線」的常態分佈:
68-95-99.7 法則:
-
約 68% 的數據落在 1 個標準差內。
-
約 95% 的數據落在 2 個標準差內。
-
約 99.7% 的數據落在 3 個標準差內。
自我檢測題
- 某班級學生的考試成績大多集中在 70-80 分,但有一位學生考了 0 分。在這種情況下,哪一個統計指標最能代表全班的平均水平且不受 0 分影響? (A) 平均數 (Mean) (B)
中位數 (Median) (C) 標準差 (Standard
Deviation) (D) 全距 (Range)
答案:(B) - 在常態分佈 (Normal
Distribution) 的假設下,約有多少比例的數據會落在距離平均值正負兩個標準差的範圍內? (A) 50%
(B) 68% (C) 95% (D) 99.7%
答案:(C) - 規劃師使用 Z-Score 來篩選異常數據,若某筆交易金額的 Z-Score 為 4.5,這代表什麼意思? (A) 該金額非常接近平均值 (B) 該金額高於平均值 4.5 倍 (C) 該金額距離平均值達 4.5 個標準差,極可能是離群值 (D) 該數據輸入正確,不需處理
答案:(C)