# AWS - 如何讓 Glue 不要重複執行已經處理過的資料 - Glue Bookmark


# Glue Bookmark

  • Glue Bookmark 是 Glue ETL Job 中的一個 狀態追蹤功能
  • 他會 記住上次 Job 執行處理到哪裡,下次只會處理「新或變更的資料」,避免重複處理。
  • 本質上是一種 增量處理 (Incremental Processing) 的機制

# 運作方式

當你在 Glue Job 啟用 Bookmark

  1. Job 第一次執行 -> 處理所有資料,並紀錄處理進度 (EX: 檔案清單、Timestamp、偏移量)
  2. Job 第二次執行 -> 只處理「上次之後新增或更新的資料」
  3. Glue 會自動更新 Bookmark 狀態

# 支援的資料來源

  • S3 (依照檔案或檔案修改時間追蹤)
  • JDBC/RDS/Redshift (依照 Primary Key 或是 Timestamp)

# 使用情境

  • log 處理:每天新增的 log 檔案只需要處理一次不會重複載入舊檔案
  • Data lake 更新:只擷取 S3 中新到的資料檔案
  • 資料庫增量擷取:只載入新插入或更新的紀錄