資料型態辨識
結構化、半結構化與非結構化 在 AI 專案中,「資料」是模型的燃料。資料的「形狀」決定了我們需要什麼樣的引擎(演算法)來驅動它。鑑定考試常考不同型態的定義與轉換場景。
資料型態對照表
|
資料型態 |
定義與特徵 |
常見格式與範例 |
處理難易度 |
資料佔比 (預估) |
|
結構化 (Structured) |
格式固定、有明確定義的欄位與順序,可用二維表(行列)展示。 |
SQL 資料庫、Excel 表格、CSV 檔。 |
低 (最易檢索與分析) |
約 20% |
|
半結構化 (Semi-structured) |
無固定格式,但包含「標籤」或「中繼資料」來界定欄位,具備層次感。 |
JSON、XML、HTML、Email。 |
中 (需解析標籤後處理) |
介於兩者之間 |
|
非結構化 (Unstructured) |
完全沒有固定結構,無法直接放入表格。通常為多媒體或長文本。 |
PDF 掃描檔、錄音檔、影片、社群媒體圖片。 |
高 (需靠 AI/深度學習) |
約 80% 以上 |
快速理解圖示
- 結構化:就像一格一格的藥櫃,每個東西都有固定的位置。
- 半結構化:就像貼了標籤的包裹,雖然形狀不一,但看標籤就知道裡面是什麼。
- 非結構化:就像一整座雜物山,你必須翻動、辨識(AI 介入)才能知道內容。
關鍵差異總結
- 擴展性:半結構化資料(如 JSON)比結構化資料更容易增加新欄位,不需要改動整個資料庫架構。
- 儲存成本:非結構化資料體積龐大(影片、高畫質圖),儲存與運算成本最高。
- 趨勢:現代企業的競爭力,往往取決於如何利用 AI (OCR, NLP, CV) 將「非結構化」資料轉化為可分析的資訊。
二、 規劃師的實務重點
- 結構化資料:傳統 AI 的主戰場
-
應用場景:銷售預測、金融核貸、庫存管理。
-
常用演算法:線性迴歸、決策樹、隨機森林。
-
優點:運算成本低、可解釋性高。
- 非結構化資料:生成式 AI 與深度學習的戰場
-
處理邏輯:必須先經過「特徵提取
(Feature Extraction)」,將影像或文字轉化為電腦懂的「數值向量」。
-
「特徵工程」技巧,「特徵交叉 (Feature
Cross)」。例如將「星期幾」與「24 小時制時間」結合,以預測通勤時間。
-
應用場景:人臉辨識 (CNN)、語音轉文字 (RNN/Transformer)、生成式客服 (LLM)。
-
技術趨勢:現代企業傾向使用向量資料庫
(Vector Database) 來儲存這些非結構化資料的特徵,以支援
RAG 架構。
三、 資料轉換的情境題眼 考試常考「如何將非結構化轉為結構化」:
- OCR (光學字元辨識):將圖片或掃描的 PDF (非結構化) 轉換成可編輯的文字或表格 (結構化)。
- NLP (自然語言處理):從長篇的新聞報導 (非結構化) 中,提取出「人名、地點、時間」並存入資料庫。
自我檢測題
、
- 某連鎖超市收集了過去三年的「收銀台銷售紀錄(包含日期、品名、金額、數量)」,這類資料最符合哪一種描述? (A) 非結構化資料 (B) 結構化資料 (C) 半結構化資料 (D) 隨機資料
答案:(B) - 關於 JSON 或 XML 格式的資料,下列敘述何者正確? (A) 它們是完全沒有標籤的非結構化資料 (B) 它們屬於結構化資料,因為可以用 Excel 直接打開 (C) 它們屬於半結構化資料,通常包含標籤來標示數據意義 (D) AI 無法處理這類資料
答案:(C) - 下列何者「不屬於」非結構化資料? (A) 錄音筆錄製的 MP3 檔案 (B) 存放在 MySQL 資料庫中的客戶地址表 (C) 社群平台上的一張自拍照 (D) 掃描成 PDF 的手寫合約書
答案:(B)