がじぇ

お金と家電とプログラミングのブログ

【AWS】RDSのレプリケーションエラーをDatadogで監視する方法

がじぇったー (@hackmylife7) | Twitter


です。


題名の通りですが、レプリケーション監視の方法を記載します。




TL;DR(要約)

設定手順

設定手順を記載していく
前提としてAWS→Datadogの連携とRDSのレプリケーション設定が完了していること。

CloudWatchでReplicaLagのメトリクスが表示されることを確認する


下記のAWSの手順を参考に、CloudWatchのコンソールでReplicaLagのメトリクスが表示されることを確認する



以下の画像の様に表示されていればOK
f:id:gadgeterkun:20191211211305p:plain

Datadogでモニタを作成する

Datadogで"ManageMonitor"を選択し、"New Monitor"を押す

f:id:gadgeterkun:20191211211303p:plain

monitor typeで"Metric"を選択

モニタ内の設定は下記の様に設定する

  • Metricでaws.rds.replica_lagを選択
  • fromに対象のDBを選択する
  • Set alert conditionsを下記の通り設定する
    • Trigger when the metric is "below or equal to" the threshold "at least once" during the last "15 minutes"
    • 時間間隔は必要に応じて変更
  • Alert thresholdは "-1"
  • a full window of data for evaluationは"Do not require"


f:id:gadgeterkun:20191211211257p:plain

作成したモニタが緑色の"OK"状態になっていれば設定完了である。