文章列表

AWS - Redshift 簡單比較 Dataware House VS RDB/NoSQL Relational or NoSQL Database Data Warehouse Main usage Recording descriptive transactional data Analyzing data over time Scope Data used by one or more application Whole company’s data Data Real-time, detailed, row-based records Historical...

AWS - Glue 簡介AWS Glue 是一種資料多功能工具,能處理 Stream 與 Batch 資料整合,AWS Glue 跑 ETL(Extract, Transform, Loading) 在 Apache Spark 上面,這些工作可以是配置或是管理在你的帳號上 Glue 主要提供以下功能 AWS Glue 資料目錄,用於資料發現和組織 AWS Glue DataBrew 無程式碼服務,用於資料準備和清理 AWS Glue ETL 作業,用於建立或編輯資料轉換作業 AWS Glue 工作流程,用於建置和監控資料管道 Glue Data stores透過 Glue...

AWS - MSK 簡介MSK 全名是 Managed Streaming for Apache Kafka,在介紹這個服務之前我們先來了解一下 Kafka Apache Kafka 架構Kafka 是開源分散式事件串流平台可以對於即時消化與轉換與串流資料的優化方案,他結合 Message Brokering,Data Stirage 與 Stream Processing,提供即時與歷史資料分析並且保證順序不會有訊息遺漏且確保一次處理。 Apache Kafka Function 是個 Message Broker 服務在 Cluster Server 上面。Topic 在 Kafka...

AWS - Kinesis 簡介在資料處理方面,我們有時候要處理一些資料串流的情境,如遊戲數據即時分析或是一些媒體相關的分析等等,AWS 提供了一項 Data Streaming 的服務叫做 Kinesis 主要提供以下功能 及時處理大規模串流資料服務 可以持續捕捉,處理與分析即時資料 包含多個子服務,各自針對不同場景使用 子服務 Kinesis Data Firehose 用於資料傳輸的全代管服務 自動將串流資料載入到目標位置 支援近乎即時的資料傳輸 Kinesis Data Streams 相較於 Firehose,Streams...

AWS - Lake Formation 資料湖治理我們在資料處理方面,有一些 非/半/全結構化資料,在面對不同類型的資料,我們會建議把同質性較高的類型放在一起,今天介紹的 Lake Formation 是一種 Data Lake,Data Lake 是一種可以放置各種未經處理的資料儲存池,通常是 ELT 架構中 Loading 的放置位置 Lake Formation 與 S3 有什麼不同你可能會想如果資料未經處理,可能是 CSV/TXT/Image 等等的原始資料,那為什麼不放置在 S3...

AWS - ElastiCache VS MemoryDB 這兩個服務還挺像的有時候我們會搞混,今天來整理一下 Amazon MemoryDB VS Amazon ElastiCache for Redis 共同點 兩個都基於 Redis 屬於 Fully Managed in-memory 資料庫服務 用來加速 App 效能,支援低延遲讀寫(通常 < 1ms) 都支援 Redis API 差異點 特性 ElastiCache MemoryDB 定位 快取 主資料庫 持久性 主要設計成快取,資料存放在 RAM,可選擇 AOF...

AWS - CloudFormation 簡介AWS 上的 IaC(Infrastructure as Code) 服務,讓使用者可以用 YAML/JSON Template 定義 AWS 資源,再由 CloudFormation 自動化建立,更新與刪除。 你只需要描述 需要什麼資源 不需要逐一手動設定 -> CloudFormation 會幫你處理資源之間的依賴與建立順序 核心概念Template 定義基礎設施的藍圖:格式為 JSON/YAML 包含以下區塊 Parameters: 允許在建立 Stack 時傳入變數 Resources:...

AWS - RDS Architecting With RDS 擴展性運算擴展性 Compute ScalingDB Instance Class 根據 RDS DB Instnace 運算與記憶體空間 儲存擴展性 Storage ScalingRDS 使用 EBS 當 Database/logs 儲存空間,根據儲存的總量 RDS 會自動用多個 EBS 空間增加效能 讀取副本 Read ReplicasRead Replicas 其實是一種特別的 DB Instance 是藉由來源 DB Instance 建立的.RDS 會對來源 DB Instance...

AWS - S3 Policy 簡介S3 是個 AWS Object Storage 服務,提供使用者上傳一些檔案到 Bucket 但畢竟還是需要去管理他們,所以 AWS 提供一些 Policy 給予使用者選用來方便管理 S3 Bucket Policy(存取政策) 控制誰能存取這個 S3 Bucket,以及能進行哪些操作(GetObject/PutObject…) 本質上是一種 資源型的 IAM Policy 用途設定存取權限,例如: 讓特定帳號或角色有讀寫權限 讓這個區域(如 example.com)的人可以讀取檔案 S3 Lifecycle...

AWS - Compute Optimizer 簡介Compute Optimizer 是一個 資源最佳化建議服務,透過 機器學習 分析你帳號中的 **歷史資源使用情境(CPU,記憶體,網路,磁碟 I/O)**,提供更適合的資源規格建議,幫助你 降低成本(避免 Over-provisioning) 提升效能(避免 Under-provisioning) 定位是 自動化的資源規格調整顧問 支援資源目前主要支援以下資源 EC2 instances 建議更適合的 Instance Type 判斷是否該調整到 Gravation 系列(ARM-baed 更便宜更省電) 提供...