Datadog
Datadogとは?

現代のITシステムは、自社サーバや外部クラウドサービス、複数のアプリケーションが複雑に絡み合って稼働しており、どこかに異常が生じると利用者が体感するサービスの質に直接影響する。このため、CPU使用率やメモリ消費量といったインフラ側の数値から、アプリケーションの応答速度やエラーの発生状況、システムの動作記録(ログ)まで、多角的な情報を継続的に監視する必要がある。Datadogはこれらの情報を「メトリクス」「ログ」「トレース」という形式に整理し、一か所に集約して可視化する。
データの収集は、「エージェント」と呼ばれる専用プログラムを監視対象のサーバにインストールすることで行う。収集されたデータはDatadogの基盤へ自動送信され、Webブラウザ上のダッシュボードで視覚的に確認できる。Amazon Web Services、Microsoft Azure、Google Cloudといったクラウドサービス、KubernetesやOpenShiftなど主要なシステム運用基盤との連携にも対応しており、既存の環境へ組み込みやすい。複数のサービスが連携する分散システムでは、処理の流れを追跡して遅延や障害の原因を特定する機能も持つ。
異常の検知と通知の機能も備わっており、あらかじめ設定した閾値を超えた場合にメールやSlack、PagerDutyなどを通じて担当者へ自動的に知らせる。利用者が不具合に気づく前にエンジニアが動き出せるため、サービスの停止時間を短縮できる。過去データの蓄積と比較により、突発的な障害だけでなく、じわじわ進む性能低下や将来のリソース不足を予測することも可能である。
当初はインフラ監視が中心だったが、現在はアプリケーション内部の動作追跡、セキュリティ上の脅威監視、ブラウザ上の利用者挙動の分析まで機能が広がっている。開発担当者と運用担当者が同じ画面で情報を共有できるため、組織をまたいだ問題対応がしやすくなる。サービスはサブスクリプション形式で提供され、自前で監視基盤を構築する負担なく高度な監視体制を整えられることから、DevOpsやSREの現場を中心に採用が進んでいる。