快樂學習 iPAS 一次就過!

統計學診斷基礎

 統計學診斷基礎

研讀提醒:本章節之「假設檢定與推論統計」為中級科目 L221 重點。初級考生僅需理解平均數與中位數如何受異常值影響即可。

 

解讀數據的健康狀態 數據進入系統後,規劃師的首要任務是進行「探索性資料分析 (EDA)」。透過統計指標,我們可以判斷數據是否具有代表性,或是否存在足以摧毀模型準確度的「噪音」。

 

一、 集中趨勢:數據的中心在哪裡? 鑑定考試常考不同指標在「異常值」出現時的穩定性。

  1. 平均數 (Mean)

-        定義:所有數值總和除以次數。

-        缺點:極易受離群值 (Outliers) 影響。

-        案例:若一家公司 9 人月薪 3 萬,老闆月薪 100 萬,平均月薪會被拉高到 12 萬,無法代表基層現狀。

  1. 中位數 (Median)

-        定義:數據由小到大排列後,位居正中間的數值。

-        優點:具備穩健性 (Robustness),不受極端值影響。

-        考點:當數據分佈不均(偏態)時,中位數比平均數更能反映真實中心點。

  1. 眾數 (Mode)

-        定義:出現次數最多的數值。常用於處理類別型資料(如:哪個產品最熱銷)。

 

二、 離散程度:數據散得很開嗎? 了解數據的變異性,有助於評估 AI 預測的難度。

  1. 全距 (Range):最大值減最小值。最直觀但最粗略。
  2. 標準差 (Standard Deviation)

-        定義:數據偏離平均值的平均距離。

-        意義:標準差大,表示數據波動劇烈(風險高);標準差小,表示數據穩定(易預測)。

  1. 四分位距 (IQR)

-        定義:第 75 百分位數 (Q3) 與第 25 百分位數 (Q1) 的差值。

-        應用:常配合箱型圖 (Boxplot) 來偵測離群值。

 

三、 診斷術:如何抓出離群值 (Outliers) 離群值可能是系統錯誤(如:輸入錯誤),也可能是關鍵信號(如:信用卡盜刷)。包含「鑽取/向下分析 (Drill-down)」、「關聯分析(如啤酒與尿布)」以及「因果分析」等規劃師常用的診斷方法:

1.      Z-分數 (Z-score) 法:

-        計算某數據點距離平均值有幾個標準差。

-        慣例上,當|Z| > 3(即超過三個標準差)時,通常視為異常值。

2.      箱型圖 (Boxplot) 法:

-        落在 [Q1 - 1.5 * IQR, Q3 + 1.5* IQR] 範圍外的點,即為離群值。

 

數據分佈:常態分佈 (Normal Distribution) AI 模型(特別是線性模型)通常假設數據符合「鐘形曲線」的常態分佈:

68-95-99.7 法則:

-        68% 的數據落在 1 個標準差內。

-        95% 的數據落在 2 個標準差內。

-        99.7% 的數據落在 3 個標準差內。

 

自我檢測題

 

  1. 某班級學生的考試成績大多集中在 70-80 分,但有一位學生考了 0 分。在這種情況下,哪一個統計指標最能代表全班的平均水平且不受 0 分影響? (A) 平均數 (Mean) (B) 中位數 (Median) (C) 標準差 (Standard Deviation) (D) 全距 (Range)
    答案:(B)
  2. 在常態分佈 (Normal Distribution) 的假設下,約有多少比例的數據會落在距離平均值正負兩個標準差的範圍內? (A) 50% (B) 68% (C) 95% (D) 99.7%
    答案:(C)
  3. 規劃師使用 Z-Score 來篩選異常數據,若某筆交易金額的 Z-Score 4.5,這代表什麼意思? (A) 該金額非常接近平均值 (B) 該金額高於平均值 4.5 (C) 該金額距離平均值達 4.5 個標準差,極可能是離群值 (D) 該數據輸入正確,不需處理
    答案:(C)