AWS - Lake Formation
資料湖治理
我們在資料處理方面,有一些 非/半/全結構化資料,在面對不同類型的資料,我們會建議把同質性較高的類型放在一起,今天介紹的 Lake Formation 是一種 Data Lake,Data Lake 是一種可以放置各種未經處理的資料儲存池,通常是 ELT 架構中 Loading 的放置位置
Lake Formation 與 S3 有什麼不同
你可能會想如果資料未經處理,可能是 CSV/TXT/Image 等等的原始資料,那為什麼不放置在 S3 就好了,不是只是要一個可以存放的空間嗎,話是這麼說沒錯,不過我們來比較一下兩者的差異
S3
- 基本目的- Object Storage Service
- Raw Storage Solution
- Acts as the foundation for data lake
 
- 主要功能- 無上限的儲存空間
- 開耐用與可用性
- 版本控制與生命週期管理
- 安全功能(加密,權限管理)
 
Lake Formation
- 基本目的- Fully managed 服務提供一個安全可控的 Data lake
- 基於 S3 實作
- 提供額外的 Data lake 治理功能
 
- 主要功能- 集中化安全與治理功能
- 自動資料復原與 ETL 服務
- Fine-grained 權限控管
- 整合 AWS 分析服務
 
兩者關係
- Lake Formation 用 S3 當作儲存空間
- S3 儲存實際資料
- Lake Formatino 添加 Data lake 治理功能
使用情境
- 單獨使用 S3: 簡單儲存物件
- 使用 Lake Formation 當建置一個全面的 Data lake 並且需要進階的安全,治理與管理需求
AWS 資料儲存
AWS 提供各式各樣的儲存服務
- Relational Database: Aurora
- NoSQL Database: DynamoDB
- Data warehouse: Redshift
- Search optimized storage: Open Search
- Replayable data storage: Kinesis
- Split data storage for parallel big data processing : EMR
 
      