資料型態辨識

結構化、半結構化與非結構化在 AI 專案中，「資料」是模型的燃料。資料的「形狀」決定了我們需要什麼樣的引擎（演算法）來驅動它。鑑定考試常考不同型態的定義與轉換場景。

資料型態對照表

資料型態	定義與特徵	常見格式與範例	處理難易度	資料佔比 (預估)
結構化 (Structured)	格式固定、有明確定義的欄位與順序，可用二維表（行列）展示。	SQL 資料庫、Excel 表格、CSV 檔。	低 (最易檢索與分析)	約 20%
半結構化 (Semi-structured)	無固定格式，但包含「標籤」或「中繼資料」來界定欄位，具備層次感。	JSON、XML、HTML、Email。	中 (需解析標籤後處理)	介於兩者之間
非結構化 (Unstructured)	完全沒有固定結構，無法直接放入表格。通常為多媒體或長文本。	PDF 掃描檔、錄音檔、影片、社群媒體圖片。	高 (需靠 AI/深度學習)	約 80% 以上

快速理解圖示

關鍵差異總結

二、規劃師的實務重點

- 應用場景：銷售預測、金融核貸、庫存管理。

- 常用演算法：線性迴歸、決策樹、隨機森林。

- 優點：運算成本低、可解釋性高。

- 處理邏輯：必須先經過「特徵提取 (Feature Extraction)」，將影像或文字轉化為電腦懂的「數值向量」。

- 「特徵工程」技巧，「特徵交叉 (Feature Cross)」。例如將「星期幾」與「24 小時制時間」結合，以預測通勤時間。

- 應用場景：人臉辨識 (CNN)、語音轉文字 (RNN/Transformer)、生成式客服 (LLM)。

- 技術趨勢：現代企業傾向使用向量資料庫 (Vector Database) 來儲存這些非結構化資料的特徵，以支援 RAG 架構。

三、資料轉換的情境題眼考試常考「如何將非結構化轉為結構化」：

自我檢測題

、

某連鎖超市收集了過去三年的「收銀台銷售紀錄（包含日期、品名、金額、數量）」，這類資料最符合哪一種描述？ (A) 非結構化資料 (B) 結構化資料 (C) 半結構化資料 (D) 隨機資料
答案：(B)
關於 JSON 或 XML 格式的資料，下列敘述何者正確？ (A) 它們是完全沒有標籤的非結構化資料 (B) 它們屬於結構化資料，因為可以用 Excel 直接打開 (C) 它們屬於半結構化資料，通常包含標籤來標示數據意義 (D) AI 無法處理這類資料
答案：(C)
下列何者「不屬於」非結構化資料？ (A) 錄音筆錄製的 MP3 檔案 (B) 存放在 MySQL 資料庫中的客戶地址表 (C) 社群平台上的一張自拍照 (D) 掃描成 PDF 的手寫合約書
答案：(B)