AWS - Lake Formation


資料湖治理

我們在資料處理方面,有一些 非/半/全結構化資料,在面對不同類型的資料,我們會建議把同質性較高的類型放在一起,今天介紹的 Lake Formation 是一種 Data Lake,Data Lake 是一種可以放置各種未經處理的資料儲存池,通常是 ELT 架構中 Loading 的放置位置


Lake Formation 與 S3 有什麼不同

你可能會想如果資料未經處理,可能是 CSV/TXT/Image 等等的原始資料,那為什麼不放置在 S3 就好了,不是只是要一個可以存放的空間嗎,話是這麼說沒錯,不過我們來比較一下兩者的差異

S3

  1. 基本目的
    • Object Storage Service
    • Raw Storage Solution
    • Acts as the foundation for data lake
  2. 主要功能
    • 無上限的儲存空間
    • 開耐用與可用性
    • 版本控制與生命週期管理
    • 安全功能(加密,權限管理)

Lake Formation

  1. 基本目的
    • Fully managed 服務提供一個安全可控的 Data lake
    • 基於 S3 實作
    • 提供額外的 Data lake 治理功能
  2. 主要功能
    • 集中化安全與治理功能
    • 自動資料復原與 ETL 服務
    • Fine-grained 權限控管
    • 整合 AWS 分析服務

兩者關係

  • Lake Formation 用 S3 當作儲存空間
  • S3 儲存實際資料
  • Lake Formatino 添加 Data lake 治理功能

使用情境

  • 單獨使用 S3: 簡單儲存物件
  • 使用 Lake Formation 當建置一個全面的 Data lake 並且需要進階的安全,治理與管理需求

AWS 資料儲存

AWS 提供各式各樣的儲存服務

  • Relational Database: Aurora
  • NoSQL Database: DynamoDB
  • Data warehouse: Redshift
  • Search optimized storage: Open Search
  • Replayable data storage: Kinesis
  • Split data storage for parallel big data processing : EMR