# AWS - LakeFormation Blueprints and Workflows
# LakeFormation Blueprints and Workflows
AWS Lake Formation Blueprints 是 自動建立資料管線 (data pipeline) 的樣板,
用來把資料從 S3、RDS、JDBC 等來源自動匯入、轉換、註冊到資料湖中。
AWS Workflows 則是由 Blueprint 產生的 可執行管線流程,用於自動化資料匯入與更新。
Blueprint 是「樣板」,Workflow 是「實際跑起來的流程」。
你可以想像:
Blueprint = Excel 巨集範本
Workflow = 按下執行鍵後自動跑的一次匯入任務
# 背景架構
在 AWS Lake Formation 架構
1 | Data Source (RDS, JDBC, S3) |
# Blueprint 是什麼
Blueprint 是 預先定義的資料匯入範本,
幫助你不用手動寫 Glue Job / Crawler,就能自動產生資料管線。
Blueprint 常見類型
| Blueprint 名稱 | 功能 | 使用情境 |
|---|---|---|
| Database snapshot | 從 RDS / JDBC 匯入整個資料庫快照 | 第一次導入整個資料庫 |
| Incremental database | 只匯入有更新的資料(透過 timestamp / ID) | 定期同步 |
| CSV import | 從 S3 的 CSV 匯入 Data Catalog | 批次匯入檔案資料 |
| JDBC import | 從外部資料庫(on-prem / Redshift / Aurora)匯入 | 混合雲資料湖 |
| Custom (Glue Job-based) | 自訂轉換邏輯 | 進階使用者自訂 ETL |
# Workflow 是什麼
Workflow 是根據 Blueprint 產生的 可執行工作流 (data ingestion pipeline),
它會包含 Glue Jobs、Crawlers、Triggers 等自動化步驟。
Workflow 流程組成
一個 Workflow 典型包含:
- Data Extraction Job(從來源讀取資料)
- Glue Crawler(建立或更新 Catalog)
- Data Load Job(寫入 S3 資料湖)
- Trigger(定期執行或依事件觸發)
# Workflow 實例
假設你用 Blueprint 建立一個「Incremental Database Import」:
Workflow 自動生成以下步驟:
- Extract new data from RDS
- Write to S3 (Parquet format)
- Update Glue Data Catalog table
- Notify success (SNS or EventBridge)
你可以在 Lake Formation Console → Blueprints → Workflows 看到執行狀態與歷史紀錄。
# Reference
- AWS - Blueprints and workflows in Lake Formation