[AWS re:Invent2025] Amazon Cloudwatch Application Signals

記事タイトルとURLをコピーする

こんにちは。マネージドサービス部の玉木です。今年で、re:Inventの参加が2回目となります。 今年は、AWSからパートナー関連のミーティング招待された関係で、基調講演以外のセッションがあまり参加できなかったです。

はじめに

時間に追われずセッションを聞いたのは、このセッションだけかもしれないです。AI+cloudwatchというキーワードが魅力的で、この裏ではAIの基調講演が行われていましたが、敢えてこちらのセッションを聞きました。(正しくは、次のミーティングの移動場所の関係で、ウィンにいるのが最適だったのですが・・・)

Application Signalsとは

Application Signalsは、アプリケーションの可観測性(オブザーバビリティ)を自動化・強化する機能であり、特にAmazon EKSなどの環境で稼働するアプリケーションのパフォーマンス監視、依存関係の可視化、トラブルシューティングを容易にするために設計されています。

主な特徴と詳細は以下の通りです。

1. 自動計装とディスカバリ(Automatic Instrumentation)

Application Signalsの最大の特徴の一つは、手動でのコード変更やエージェントのインストール作業を最小限に抑えられる点です。

  • 「Easy Button」: EKSクラスター上のアプリケーションに対し、コードの書き換えなしで自動的に計装(Instrumentation)を行い、アプリケーションやAPIを検出します。

  • ランタイムメトリクス: メモリ、ヒープ使用量、ガベージコレクション(GC)などのランタイムメトリクスも取得可能です。

2. アプリケーションマップと依存関係の可視化

アプリケーションの全体像を視覚的に把握する機能が強化されています。

  • 依存関係の特定: APIゲートウェイやデータベースなど、アプリケーションを構成する多くのサービス間の依存関係を自動的にマップ化します。

  • クロスアカウント対応: 複数のAWSアカウントにまたがってアプリケーションが稼働している場合でも、単一のビューでマップを表示し、アカウント間の接続や依存関係を追跡できます。

  • 健全性の可視化: マップ上の各サービス(タイル)は、健全性に応じて色分け(赤や青など)され、問題箇所を直感的に特定できます。

3. AIOpsと生成AI(GenAI)の可観測性

AIを活用して運用負荷を軽減する機能が含まれています。

  • AI Operations Investigation: 障害発生時、AIエンジンが自動的に複数のデータポイントを分析し、仮説(Hypothesis)と調査結果(Findings)を提示します。これにより、平均復旧時間(MTTR)を大幅に短縮(95〜98%削減のケースもあり)できます。

  • 生成AIアプリの監視: Amazon Bedrockなどを使用する生成AIアプリケーションにおいて、モデルごとのトークン使用量(入力/出力)、呼び出しレイテンシーなどを追跡する機能が組み込まれています。

4. 高度なトラブルシューティングと相関分析

ビジネスへの影響と技術的な問題を紐付ける機能が充実しています。

  • 根本原因の特定: レイテンシーのスパイク(急増)が発生した場合、高レイテンシーのトレース(Span)を検索し、具体的なSQLクエリの遅延などを特定できます。

  • デプロイ影響の監査: 新しいコードのデプロイや設定変更がパフォーマンスにどう影響したかを追跡し、問題があればロールバックの判断材料とすることができます。

  • ユーザーインパクト分析: モバイルアプリ(iOS/Android)やWebのリアルユーザーモニタリング(RUM)と統合されており、クラッシュが発生した際に、影響を受けたユーザー数や具体的なエラー箇所(コード行)を特定できます。

5. コスト管理とサンプリング

コスト効率を高めるための機能も提供されています。

  • アダプティブサンプリング(Adaptive Sampling): 通常時はサンプリングレートを抑え、異常やアラーム検知時のみ自動的にサンプリングレートを引き上げて詳細なデータを取得することで、コストを抑えつつ必要な可観測性を確保します,。

導入効果の実例 事例では、Application Signalsの導入により以下の成果が報告されています。

  • 平均復旧時間(MTTR)の約50%削減

  • コストの約40%削減

  • 開発者およびSRE(サイト信頼性エンジニアリング)チームの生産性向上

まとめ

Application Signalsを「高度な自動健康診断システム付きの病院」に例えると分かりやすいでしょう。

  • 自動計装: 患者(アプリケーション)が病院に入った瞬間、問診票を書かなくても(コード変更なしで)、自動的に全身スキャンが行われるようなものです。

  • アプリケーションマップ: 病院内のどの科(サービス)が連携しているか、どこが混雑しているかを示す院内マップが自動生成されるイメージです。

  • AIOps: 熟練の医師(AI)が検査データを見て、「ここが悪い可能性が高い」と診断の仮説を数分で提示してくれる機能です。

  • アダプティブサンプリング: 普段は簡易検査(低コスト)で済ませますが、異常値が出たときだけ自動的に精密検査(詳細ログ取得)に切り替える賢い仕組みです。 このように、Application Signalsは、システムの状態を自動的に「見える化」し、異常があれば即座に原因を突き止めるための包括的なツールセットです。

おわりに

CloudwatchでAPMが可能となるり、かつAIOpsで診断までできるのは今後の進化が楽しみと思いました。

玉木 雄二 (執筆記事の一覧)

マネージドサービス部長

MSPやSOCなど、次世代のサービスを作ることに楽しさを感じていますー