# AWS - LakeFormation Blueprints and Workflows


# LakeFormation Blueprints and Workflows

AWS Lake Formation Blueprints 是 自動建立資料管線 (data pipeline) 的樣板,
用來把資料從 S3、RDS、JDBC 等來源自動匯入、轉換、註冊到資料湖中。

AWS Workflows 則是由 Blueprint 產生的 可執行管線流程,用於自動化資料匯入與更新。

Blueprint 是「樣板」,Workflow 是「實際跑起來的流程」。
你可以想像:

Blueprint = Excel 巨集範本

Workflow = 按下執行鍵後自動跑的一次匯入任務


# 背景架構

在 AWS Lake Formation 架構

1
2
3
4
5
6
7
8
9
10
11
12
Data Source (RDS, JDBC, S3)

Blueprint (定義要怎麼取資料)

Workflow (自動執行匯入)

Glue Crawler / ETL

Data Catalog (註冊結構)

Athena / Redshift / QuickSight 查詢


# Blueprint 是什麼

Blueprint 是 預先定義的資料匯入範本,
幫助你不用手動寫 Glue Job / Crawler,就能自動產生資料管線。

Blueprint 常見類型

Blueprint 名稱 功能 使用情境
Database snapshot 從 RDS / JDBC 匯入整個資料庫快照 第一次導入整個資料庫
Incremental database 只匯入有更新的資料(透過 timestamp / ID) 定期同步
CSV import 從 S3 的 CSV 匯入 Data Catalog 批次匯入檔案資料
JDBC import 從外部資料庫(on-prem / Redshift / Aurora)匯入 混合雲資料湖
Custom (Glue Job-based) 自訂轉換邏輯 進階使用者自訂 ETL

# Workflow 是什麼

Workflow 是根據 Blueprint 產生的 可執行工作流 (data ingestion pipeline),
它會包含 Glue Jobs、Crawlers、Triggers 等自動化步驟。

Workflow 流程組成

一個 Workflow 典型包含:

  1. Data Extraction Job(從來源讀取資料)
  2. Glue Crawler(建立或更新 Catalog)
  3. Data Load Job(寫入 S3 資料湖)
  4. Trigger(定期執行或依事件觸發)

# Workflow 實例

假設你用 Blueprint 建立一個「Incremental Database Import」:

Workflow 自動生成以下步驟:

  1. Extract new data from RDS
  2. Write to S3 (Parquet format)
  3. Update Glue Data Catalog table
  4. Notify success (SNS or EventBridge)

你可以在 Lake Formation Console → Blueprints → Workflows 看到執行狀態與歷史紀錄。


# Reference

  • AWS - Blueprints and workflows in Lake Formation