# AWS - 如何讓 Glue 不要重複執行已經處理過的資料 - Glue Bookmark
# Glue Bookmark
- Glue Bookmark 是 Glue ETL Job 中的一個 狀態追蹤功能
- 他會 記住上次 Job 執行處理到哪裡,下次只會處理「新或變更的資料」,避免重複處理。
- 本質上是一種 增量處理 (Incremental Processing) 的機制
# 運作方式
當你在 Glue Job 啟用 Bookmark
- Job 第一次執行 -> 處理所有資料,並紀錄處理進度 (EX: 檔案清單、Timestamp、偏移量)
- Job 第二次執行 -> 只處理「上次之後新增或更新的資料」
- Glue 會自動更新 Bookmark 狀態
# 支援的資料來源
- S3 (依照檔案或檔案修改時間追蹤)
- JDBC/RDS/Redshift (依照 Primary Key 或是 Timestamp)
# 使用情境
- log 處理:每天新增的 log 檔案只需要處理一次不會重複載入舊檔案
- Data lake 更新:只擷取 S3 中新到的資料檔案
- 資料庫增量擷取:只載入新插入或更新的紀錄