【AWS re:Invent 2025】AWSのエコシステムを支えるサードパーティの展示会 "EXPO" に潜入!〜Observability編〜

記事タイトルとURLをコピーする

re:Inventでは、AWSの周辺エコノミーを支えているサードパーティの展示会「EXPO」を、隅々まで探索してきたのですが、前回はFinOpsとセキュリティ関連で気になったサービスを紹介したので、今回はオブザーバビリティ関連で、気になったサービスを紹介したいと思います。

【Apica】ログコストを劇的に下げる『テレメトリー・パイプライン』

www.apica.io

Apicaは、大量のデータ(ログ、メトリクスなど)を効率的に管理・分析するための 「オブザーバビリティ& データ管理プラットフォーム」 になります。

「増えすぎて高額になりがちな『ログデータ』を、安く大量に保存・整理し、さらにシステムの『監視・テスト』(外形監視)まで一括で行えるツール」 です。もともとは「Webサイトの負荷テスト」や「監視」のツールとして有名でしたが、現在はデータ基盤としての機能を大幅に強化しています。

  1. Flow (Telemetry Pipeline)
    • 全てのログをSplunkやDatadogなどの高いツールに送るとコストが跳ね上がるため、Apicaで「不要なログを捨てる」「安価なストレージに回す」といった制御を行い、コストを削減します。
  2. Lake (InstaStore)
    • 整理したデータを保存するためのデータレイクで、独自のインデックス技術(InstaStore)により、AWS S3などの安価なオブジェクトストレージを使っているにもかかわらず、高速な検索を可能にします。
    • データを独自の形式でロックインせず、オープンなフォーマットで保持できるのが特徴です。
  3. Observe (旧来の監視機能の進化版)
    • システム全体の稼働状況を可視化するダッシュボード。
    • ログ、メトリクス、トレースを相関分析し、AIを使って異常検知や根本原因の特定を行います。
  4. Synthetic Monitoring & Load Testing
    • Synthetic Monitoring: Apicaが昔から得意とする分野で、世界中の拠点からユーザーのふりをしてWebサイトにアクセスし、「ちゃんと動いているか」「遅くないか」を24時間365日監視します。
    • Load Testing: 大規模なアクセス負荷(数百万ユーザー規模)を意図的にかけて、システムがダウンしないかテストします。

Apicaは近年、AIデータファブリック企業のLogiq.aiを買収・統合しており、これにより「データの整理・コスト削減」機能(Flow/Lake)が大幅に強化されました。SplunkやDatadogの金額感に課題を感じており、「ログの量は減らしたいが、万が一のためにデータは捨てたくない」という場合に、Apicaを間に挟むことでコストを最適化できる可能性があります。

【Chronosphere】大規模Kubernetes環境での選択肢

chronosphere.io

クラウドネイティブ環境(特にKubernetesとマイクロサービス)に特化しているのが特徴で、DatadogやPrometheusの『データ量が増えすぎてコストが高騰する』『アラートが多すぎて原因がわからない』という問題を解決する、大規模環境向けの監視ツールです。

  1. データの「間引き」とコスト制御 (Control Plane)
    • Control Plane: 全てのメトリクスやログを保存するのではなく、取り込み時(Ingest時)に「これは重要だから保存」「これは不要だから捨てる」というルールを適用できます。
    • コスト削減: 「保存するデータを賢く選別する」ことで、平均してデータ量を84%削減し、監視コストを劇的に下げることができると謳っています。
  2. Prometheusと完全互換かつスケーラブル
    • 多くの企業が使っているPrometheusは、規模が大きくなると管理が難しくなります(スケーリングの壁)。ChronosphereはPrometheusのデータ形式に完全対応しており、バックエンドとして利用することで、数百万〜数億のデータポイントを処理できる「無限のスケーラビリティ」「99.99%の信頼性」を提供します。
  3. テレメトリーパイプライン (Fluent Bitベース)
    • データ収集には、オープンソースで高速な Fluent Bit を活用しています。
    • ログやメトリクスを「あらゆるソースから収集」し、「あらゆる宛先(Chronosphereだけでなく、SplunkやS3など)」へ振り分けることができます。
  4. 根本原因の特定 (Chronosphere Lens / AI)
    • Lens: サービス同士の依存関係を可視化し、障害時に「どこが悪いのか」を直感的にドリルダウンできます。
    • AI Guided Troubleshooting: AIを使って、アラートのノイズ(誤検知)を減らし、障害の根本原因を特定するまでの時間を短縮します。

2025年2月、サイバーセキュリティ大手の Palo Alto Networks(パロアルトネットワークス) がChronosphereを買収することで合意したと発表されています。これにより、今後さらにセキュリティ分野との統合が進む可能性があります。

【Coralogix】SIEM機能も内包したフルスタック・オブザーバビリティ基盤

独自のストリーミング解析技術を活用した 「コスト最適化に特化した、フルスタック・オブザーバビリティプラットフォーム」 です。

一般的なツールは、データを一度保存(インデックス化)してから解析するため保存コストが膨大になりますが、『データ保存料(インデックス代)』を払う前にリアルタイムで解析することで、DatadogやSplunkよりも圧倒的に安く、かつ大量のデータを扱えるようにするのが特徴です。

  1. Streama© (インデックス不要のストリーミング解析)
    • Coralogixのアプローチ: データが流れてきた瞬間(保存される前)にリアルタイムで解析・アラート発報を行います。これにより、高価なインデックスを作成する必要がなくなり、コストを大幅に削減できます。
  2. TCO Optimizer (データの重要度に応じたコスト配分)
    • ログやメトリクスの重要度に応じて、保存先を自動で振り分ける機能です
    • Frequent Search (Hot): エラーログなど、頻繁に検索するデータは高速なストレージへ(高コスト)。
    • Archive (Cold): 監査ログなど、めったに見ないデータは安価なAWS S3などのアーカイブへ(超低コスト)。S3などの安いストレージに置いたデータに対しても、インデックスなしで直接クエリ(検索)を投げることができます(Remote Querying)。
  3. フルスタック対応 (Logs, Metrics, Tracing, Security)
    • APM & Tracing: アプリケーションのパフォーマンス監視。
    • Security (Snowbit): SIEM(セキュリティ情報のイベント管理)機能を内蔵しており、セキュリティ監視もこれ1つで行えます。
    • AI Observability: AIエージェントの挙動やコストを監視・評価する機能も強化しています。

先ほど紹介したApicaは、「データの入り口(Pipeline)で不要なゴミを徹底的に捨てたり、形式を変換したりして、保存する総量を減らすことでコストを下げる」というアプローチでしたが、こちらは「データをHot(高い・速い)とArchive(安い・遅い)に振り分けるが、Archiveのデータもそのまま検索できるようにしてコストを下げる」というアプローチを取っている点で、それぞれ違いがあります。

コスト削減(FinOps)と高度な監視を両立させたい場合の最有力な候補といえます。

【Digitate ignio】検知から修復までAIで全自動化

digitate.com

ITシステムの『異常検知』から『原因特定』、そして『自動修復』までを、人間を介さずにAIで自動化する『自律型IT運用エンジン』です。問題を「見つける」だけでなく「直す」ところまで自動化することが最大の強みで、主に大規模で複雑なシステムを持つエンタープライズ企業向けに設計されています。

  1. Closed-Loop Automation(クローズドループ・オートメーション)
    • 通常の監視ツールだとアラートを出して終わりですが、「サーバーの応答が遅いです」→「原因は特定のプロセス暴走です」→「プロセスを再起動して直しました」と、自己完結(クローズドループ)で処理します。
  2. IT環境の「青写真」を自動生成(Blueprint)
    • 複雑なIT環境(サーバー、ネットワーク、アプリ、データベースなど)の依存関係をAIが自動学習し、システムの全体像(ブループリント)を作成します。これにより、「Aのサーバーが止まると、Bの業務アプリに影響が出る」といったビジネスへの影響範囲を即座に特定できます。
  3. さまざまな領域に対応するモジュール
    • ignio AIOps: サーバーやネットワークなどのインフラ運用を自動化。
    • AI.Workload: ジョブスケジューラ(バッチ処理)の遅延予測や異常検知に特化。
    • AI.ERPOps: SAPなどのERPシステムにおける技術的なトラブル(IDocのエラーなど)を自動解決。

一般的な監視ツールは問題発生後の検知に焦点が当たりがちですが、ignio は AI を使って、異常の兆候を予測・発生前にアラート・自動修復や対処策の実行という、「予防」まで視野に入れた運用モデル を実現しているのが、他にはない大きな特徴といえます。多くの AI 運用ツールでは高精度なモデル構築に長い学習期間が必要ですが、 ignio は 事前構築された運用ナレッジベースや機械学習モデル を備えているため、導入後すぐにインサイトや自動化の効果を得られるのもユニークな点です。

【NeuBird】障害対応を90%短縮するAI SRE

neubird.ai

「大量のアラートやグラフを人間が監視する代わりに、『Hawkeye(ホークアイ)』という名前のAIロボットが勝手に障害を調査・原因特定し、直し方まで教えてくれるツール」 です。

  1. AI SRE エージェント「Hawkeye」
    • NeuBirdのコア製品です。単なるチャットボットではなく、人間のエンジニアのように「思考」して動く自律型エージェントです。
    • 自動調査: アラートが鳴ると、Hawkeyeが即座にログ、メトリクス、トレースなどのテレメトリーデータを分析し始めます。
    • 原因特定 (RCA): 「なぜ落ちたのか」の根本原因を数分で特定し、自然言語で説明します。
    • 解決策の提示: 具体的な復旧手順や、修正のためのコードまで提案してくれます。これにより、平均修復時間(MTTR)を最大90%削減できるとしています。
  2. 「ダッシュボード疲れ」からの解放
    • 従来の監視ツール(DatadogやCloudWatch)は、「人間がグラフを見て異常を探す」必要がありましたが、NeuBirdは「ダッシュボードを見る必要はない」というスタンスです。AIが裏でデータを相関分析し、答えだけを持ってきてくれるため、人間は「調査作業」から解放されます。
    • 複数のLLM(大規模言語モデル)がお互いに議論・検証し合うことで、AIのハルシネーション(嘘)を防ぐ仕組みを持っています。
  3. セキュリティとプライバシー
    • 企業の機密データであるログやメトリクスを学習に使い回したり、永続的に保存したりしません。
    • リアルタイム処理: 必要なデータをその場で取得して分析し、セッションが終わるとメモリから消去します(Zero Data Persistence)。
    • Read-Only: 基本的に読み取り専用でアクセスするため、AIが勝手に環境を壊す心配がありません。

NeuBird と Digitate ignio は、どちらも「AIを使ったIT運用(AIOps)」のツールですが、ignioは数理モデルやルールベースの自動化が中心なのに対し、こちらはLLM(大規模言語モデル)を最初から核として設計されており、自然言語での対話や推論が得意です。前者はクラウドだけでなく、オンプレミス、SAP、メインフレームなど、巨大企業の複雑なシステム向けであり、こちらはDatadogやCloudWatchを使うモダンなSREチーム向けのSaaSになっています。

さいごに

オブザーバビリティは、最近何かと話題になっている分野かと思います。Observability データ(ログ・トレース・メトリクス)は、AI にとって“学習しやすいデータ形式”であるため、障害の予兆検知や自動復旧など、AI との相性が非常によいのも背景にあるかと思われます。

また今のセキュリティでは、振る舞い分析・異常検知・データリネージの追跡など、ネットワーク境界ではなく動作の観測が重要なため、Observability の考え方が SecOps や DSPM にも広がり、“Observability + Security = SecOps 2.0” という潮流が生まれていると言われています。

Observability は単なる “モニタリングの強化版” ではなく、クラウド時代におけるシステム運用の中心概念 になっているので、今後もこの分野には注目していきたいですね。