快樂學習 iPAS 一次就過!

資料型態辨識

 

資料型態辨識

結構化、半結構化與非結構化 AI 專案中,「資料」是模型的燃料。資料的「形狀」決定了我們需要什麼樣的引擎(演算法)來驅動它。鑑定考試常考不同型態的定義與轉換場景。

資料型態對照表

 

資料型態

定義與特徵

常見格式與範例

處理難易度

資料佔比 (預估)

結構化 (Structured)

格式固定、有明確定義的欄位與順序,可用二維表(行列)展示。

SQL 資料庫、Excel 表格、CSV 檔。

(最易檢索與分析)

20%

半結構化 (Semi-structured)

無固定格式,但包含「標籤」或「中繼資料」來界定欄位,具備層次感。

JSONXMLHTMLEmail

(需解析標籤後處理)

介於兩者之間

非結構化 (Unstructured)

完全沒有固定結構,無法直接放入表格。通常為多媒體或長文本。

PDF 掃描檔、錄音檔、影片、社群媒體圖片。

(需靠 AI/深度學習)

80% 以上

 

快速理解圖示

  1. 結構化:就像一格一格的藥櫃,每個東西都有固定的位置。
  2. 半結構化:就像貼了標籤的包裹,雖然形狀不一,但看標籤就知道裡面是什麼。
  3. 非結構化:就像一整座雜物山,你必須翻動、辨識(AI 介入)才能知道內容。

關鍵差異總結

  •  擴展性:半結構化資料(如 JSON)比結構化資料更容易增加新欄位,不需要改動整個資料庫架構。
  • 儲存成本:非結構化資料體積龐大(影片、高畫質圖),儲存與運算成本最高。
  • 趨勢:現代企業的競爭力,往往取決於如何利用 AI (OCR, NLP, CV) 將「非結構化」資料轉化為可分析的資訊。

規劃師的實務重點

  •   結構化資料:傳統 AI 的主戰場

-       應用場景:銷售預測、金融核貸、庫存管理。

-       常用演算法:線性迴歸、決策樹、隨機森林。

-       優點:運算成本低、可解釋性高。

  •   非結構化資料:生成式 AI 與深度學習的戰場

-       處理邏輯:必須先經過「特徵提取 (Feature Extraction)」,將影像或文字轉化為電腦懂的「數值向量」。

-       「特徵工程」技巧,「特徵交叉 (Feature Cross)」。例如將「星期幾」與「24 小時制時間」結合,以預測通勤時間。

-       應用場景:人臉辨識 (CNN)、語音轉文字 (RNN/Transformer)、生成式客服 (LLM)

-       技術趨勢:現代企業傾向使用向量資料庫 (Vector Database) 來儲存這些非結構化資料的特徵,以支援 RAG 架構。

資料轉換的情境題眼 考試常考「如何將非結構化轉為結構化」:

  •  OCR (光學字元辨識):將圖片或掃描的 PDF (非結構化) 轉換成可編輯的文字或表格 (結構化)
  •  NLP (自然語言處理):從長篇的新聞報導 (非結構化) 中,提取出「人名、地點、時間」並存入資料庫。

 

我檢測題

  1. 某連鎖超市收集了過去三年的「收銀台銷售紀錄(包含日期、品名、金額、數量)」,這類資料最符合哪一種描述? (A) 非結構化資料 (B) 結構化資料 (C) 半結構化資料 (D) 隨機資料
    答案:(B)
  2. 關於 JSON XML 格式的資料,下列敘述何者正確? (A) 它們是完全沒有標籤的非結構化資料 (B) 它們屬於結構化資料,因為可以用 Excel 直接打開 (C) 它們屬於半結構化資料,通常包含標籤來標示數據意義 (D) AI 無法處理這類資料
    答案:(C)
  3. 下列何者「不屬於」非結構化資料? (A) 錄音筆錄製的 MP3 檔案 (B) 存放在 MySQL 資料庫中的客戶地址表 (C) 社群平台上的一張自拍照 (D) 掃描成 PDF 的手寫合約書
    答案:(B)