# AWS - 如何讓 Glue 不要重複執行已經處理過的資料 - Glue Bookmark

# Glue Bookmark

Glue Bookmark 是 Glue ETL Job 中的一個 狀態追蹤功能
他會 記住上次 Job 執行處理到哪裡，下次只會處理「新或變更的資料」，避免重複處理。
本質上是一種 增量處理 (Incremental Processing) 的機制

# 運作方式

當你在 Glue Job 啟用 Bookmark

Job 第一次執行 -> 處理所有資料，並紀錄處理進度 (EX: 檔案清單、Timestamp、偏移量)
Job 第二次執行 -> 只處理「上次之後新增或更新的資料」
Glue 會自動更新 Bookmark 狀態

# 支援的資料來源

S3 (依照檔案或檔案修改時間追蹤)
JDBC/RDS/Redshift (依照 Primary Key 或是 Timestamp)

# 使用情境

log 處理：每天新增的 log 檔案只需要處理一次不會重複載入舊檔案
Data lake 更新：只擷取 S3 中新到的資料檔案
資料庫增量擷取：只載入新插入或更新的紀錄

AWS Cloud