統計學診斷基礎

研讀提醒：本章節之「假設檢定與推論統計」為中級科目 L221 重點。初級考生僅需理解平均數與中位數如何受異常值影響即可。

解讀數據的健康狀態數據進入系統後，規劃師的首要任務是進行「探索性資料分析 (EDA)」。透過統計指標，我們可以判斷數據是否具有代表性，或是否存在足以摧毀模型準確度的「噪音」。

一、集中趨勢：數據的中心在哪裡？鑑定考試常考不同指標在「異常值」出現時的穩定性。

- 定義：所有數值總和除以次數。

- 缺點：極易受離群值 (Outliers) 影響。

- 案例：若一家公司 9 人月薪 3 萬，老闆月薪 100 萬，平均月薪會被拉高到 12 萬，無法代表基層現狀。

- 定義：數據由小到大排列後，位居正中間的數值。

- 優點：具備穩健性 (Robustness)，不受極端值影響。

- 考點：當數據分佈不均（偏態）時，中位數比平均數更能反映真實中心點。

- 定義：出現次數最多的數值。常用於處理類別型資料（如：哪個產品最熱銷）。

二、離散程度：數據散得很開嗎？了解數據的變異性，有助於評估 AI 預測的難度。

- 定義：數據偏離平均值的平均距離。

- 意義：標準差大，表示數據波動劇烈（風險高）；標準差小，表示數據穩定（易預測）。

- 定義：第 75 百分位數 (Q3) 與第 25 百分位數 (Q1) 的差值。

- 應用：常配合箱型圖 (Boxplot) 來偵測離群值。

三、診斷術：如何抓出離群值 (Outliers)？離群值可能是系統錯誤（如：輸入錯誤），也可能是關鍵信號（如：信用卡盜刷）。包含「鑽取/向下分析 (Drill-down)」、「關聯分析（如啤酒與尿布）」以及「因果分析」等規劃師常用的診斷方法：

1. Z-分數 (Z-score) 法：

- 計算某數據點距離平均值有幾個標準差。

- 慣例上，當|Z| > 3（即超過三個標準差）時，通常視為異常值。

2. 箱型圖 (Boxplot) 法：

- 落在 [Q1 - 1.5 * IQR, Q3 + 1.5* IQR] 範圍外的點，即為離群值。

四、數據分佈：常態分佈 (Normal Distribution) AI 模型（特別是線性模型）通常假設數據符合「鐘形曲線」的常態分佈：

68-95-99.7 法則：

- 約 68% 的數據落在 1 個標準差內。

- 約 95% 的數據落在 2 個標準差內。

- 約 99.7% 的數據落在 3 個標準差內。

自我檢測題

某班級學生的考試成績大多集中在 70-80 分，但有一位學生考了 0 分。在這種情況下，哪一個統計指標最能代表全班的平均水平且不受 0 分影響？ (A) 平均數 (Mean) (B) 中位數 (Median) (C) 標準差 (Standard Deviation) (D) 全距 (Range)
答案：(B)
在常態分佈 (Normal Distribution) 的假設下，約有多少比例的數據會落在距離平均值正負兩個標準差的範圍內？ (A) 50% (B) 68% (C) 95% (D) 99.7%
答案：(C)
規劃師使用 Z-Score 來篩選異常數據，若某筆交易金額的 Z-Score 為 4.5，這代表什麼意思？ (A) 該金額非常接近平均值 (B) 該金額高於平均值 4.5 倍 (C) 該金額距離平均值達 4.5 個標準差，極可能是離群值 (D) 該數據輸入正確，不需處理
答案：(C)