はじめに
re:Invent 2025 Day1 からボンジュール!!
アプリケーションサービス部の千葉です。
AWS re:Invent 2025で開催されたセッション「AI-Powered FinOps」では、AIを活用したクラウドコスト最適化の現状と実践的なアプローチについて解説しました。
本記事では、セッションで共有された知見を技術者の視点で整理します。
※: 発表資料が公開されたら、後ほどリンクを追加します。
組織のAIジャーニー:4つの段階
AIの導入成熟度は以下の4段階で評価できます:
| 段階 | 内容 |
|---|---|
| Early exploration | 可能性の調査、ユースケースの特定 |
| Piloting specific use cases | 制御された環境でのAIアプリケーションテスト |
| Production deployment | 本番環境でのAIソリューション運用 |
| Scaled implementation | 複数機能にまたがるエンタープライズ全体への統合 |
生成AI vs 従来のML:使い分けの判断基準
すべてのユースケースに生成AIが適しているわけではありません。
従来のML/アナリティクスが優れるケース
- 季節パターン認識(月末バッチ処理や年末商戦など、周期的に繰り返されるリソース需要の予測)、線形成長予測
- 単純な閾値アラート、if-thenルール
- 統計的外れ値検出、既知パターンマッチング、時系列分析
メリット: 低コスト、高速レスポンス、説明可能な結果、実績のある精度
生成AIが適するケース
- 多次元分析、非構造化データからのインサイト抽出
- 対話形式のクエリ、コンテキスト理解、意図解釈
- パーソナライズされた提案、複雑な最適化パス、トレードオフ分析
メリット: 曖昧さへの対応、コンテキストからの学習、人間的な推論、創造的な解決策
AI導入における共通課題
多くの組織が直面する課題として以下が挙げられます:
- Data readiness gaps: データ準備の不足
- Hallucinations / trust concerns: ハルシネーションと信頼性の問題
- Unclear ROI models: ROIモデルの不明確さ
- Skills shortage: 専門スキルの不足
- Governance vs. innovation/speed: ガバナンスとスピードのバランス
- Integration: 既存システムとの統合
- Multi-cloud normalization: マルチクラウド環境の標準化
- "Wild West" perception: 無秩序な印象
AIコストの氷山モデル
AIコストを正確に把握するには「氷山」の全体像を見る必要があります。
見えるコスト(水面上)
- Token / APIコスト
- モデルホスティング費用
- GPUコンピュート
隠れたコスト(水面下)
- データ準備と品質管理
- ベクトル変換処理
- プロンプトエンジニアリング工数
- 統合コスト
- オーケストレーション基盤
重要: 隠れたコストは可視コストの3〜5倍に達することがあります。
AIワークロード導入前のチェックリスト
- データ準備と品質管理(総工数の30-40%を占める)
- FinOpsチームのキャパシティ確保
- ガバナンスフレームワークと承認プロセス
- ツール連携とモニタリング基盤
- トレーニング/イネーブルメント
- 失敗した実験のための20-30%バッファ
- 組織変革マネジメント
ケーススタディ
1. グローバルSaaS企業:SlackでFinOpsを民主化
課題:
- クラウドコスト分析ができるのは5人だけ
- 複雑なダッシュボード
- インサイトがサイロ化
- エンジニアがFinOpsを避けていた
ソリューション:
- AI駆動のSlack連携
- 自然言語クエリ
- エンジニアが普段使うチャネルへの直接配信
成果:
- ユーザー数100倍増加
- 日常的なコスト会話の実現
- プロアクティブな最適化
- カルチャー変革
2. グローバル銀行:GPU利用分析
課題:
- GPUキャパシティの逼迫
- フリート全体のGPU利用率が不可視
- 説明責任なく高価なGPUリソースを要求する複数チーム
ソリューション:
- 全GPUから毎分19種類のメトリクスを収集
- 4つの利用パターンを特定するアナリティクス構築
- 利用率ベースのチーム説明責任を実装
成果:
- 利用パターン/クラスターの完全な可視化
- 未使用GPUキャパシティの発見
- ライトサイジングに関するデータドリブンな議論
- 低優先度ジョブのバッチスケジューリング根拠の確立
ROI測定の3つの課題
1. 生産性パラドックス
「開発者は気に入っているが、価値を定量化できない」
例: Amazon Q Developerでコーディングが30%高速化。しかし、30%多くの機能?品質向上?納期短縮?
2. ベースライン不在
「以前どれくらいかかっていたか測定していないのに、どうやって改善を示すのか?」
- Before AI: メール作成時間、リサーチ効率、意思決定速度の測定なし
- After AI: メールあたりの節約秒数、AIリサーチの品質、意思決定精度の測定が必要
3. 価値拡散
AIの効果が組織全体に拡散し、特定が困難に。
例: カスタマーサービスにAI導入 → チケット20%削減 → 間接効果として営業チームがインサイト活用、プロダクトチームが問題を早期修正、マーケティングがデータ活用、従業員満足度向上...
よくある失敗パターン
| アプローチ | 計算式 | 問題点 | 現実 |
|---|---|---|---|
| 時間節約=コスト削減 | 節約時間×時給 | 人は解放されず別作業をする | 「1000時間節約したがコストは下がらず」 |
| 収益帰属 | AI機能による新収益 | AIの貢献を分離できない | 「AIは助けたが、他の10個も」 |
| コスト回避 | AIなしでいくらかかったか | 仮定のシナリオ | 「5人の採用を回避」 |
| 効率指標 | アウトプット/インプット改善 | 収益に直結しない | 「50%効率化したが利益は横ばい」 |
AI-Powered FinOpsへの3フェーズ
Phase 1: Foundation
やること:
- データスワンプの整理
- タグ付け標準の実装
- パイロットユースケースの選定
- ステークホルダーの賛同獲得
成功指標:
- 80%以上のリソースがタグ付け済み
- データが毎時更新
- 最初のAIパイロット開始
- エグゼクティブスポンサー確保
Phase 2: Enablement
やること:
- 対話型インターフェースのデプロイ
- スマートアラートの実装
- レコメンデーションエンジンの構築
- チームへのスケール展開
成功指標:
- 100人以上のアクティブAIユーザー
- 手動分析50%削減
- 毎週の最適化アクション
- 正のROI実証
Phase 3: Automation
やること:
- 自己修復インフラ
- 予測的最適化
- 自律的コスト制御
- AI駆動ガバナンス
成功指標:
- 70%以上の問題が自動解決
- 予測精度90%超
- 無駄ほぼゼロ
- 業界リーダーポジション
AI現場からの5つのアドバイス
「退屈な作業(タグ付け、データ品質)を飛ばせると思った。6ヶ月かけてバックフィルした」 → データ整備を先にやる
「$500K節約するAI推奨を信じた。ただし存在しなかった。常に検証せよ」 → 財務判断には人間をループに入れる
「誰も使わない美しいAIダッシュボードを作った。痛い問題(異常検知)を解決したら皆が欲しがった」 → 痛くて高コストで繰り返される問題を解決する
「自前で内製し、多くを学び、より良いソリューションを買収したら全部捨てた。後悔なし」 → 速く実験し、速く失敗し、頻繁に乗り換える
「FinOps 101は今も有効。『CPU時間』を『トークン』に、『インスタンス』を『モデル』に置き換えただけ」 → 考えすぎないことをおすすめします。基本原則は適用される
おすすめリソース
書籍
- "The Keys to AWS Optimization Cloud FinOps" by J.R. Storment & Mike Fuller
- "The AI-First Company" by Ash Fontana
- "Prediction Machines" by Ajay Agrawal, Joshua Gans, Avi Goldfarb
- Cloud Native Computing Foundation
ポッドキャスト
AI Chat, AI Explored, AI Hustle, Everyday AI, Latent Space, Mixture of Experts, NVIDIA AI Podcast, Practical AI, The AI Daily Brief, TWIML, Grit, All-In, Lex Fridman, Andreesen Horowitz
フォローすべき人物
FinOps Foundation, Matt Wood (PWC), Corey Quinn (Duckbill), Allie K. Miller, Eduardo Ordax, Brooke Jamieson, Andrej Karpathy (@karpathy)
まとめ
AI-Powered FinOpsの成功には、テクノロジーだけでなく、データ品質、組織文化、適切な期待値設定が不可欠です。
従来のFinOpsの原則は依然として有効であり、AIはそれを加速・拡張するツールとして位置づけるべきでしょう。
まずはBase Campでの基盤整備から始め、段階的に成熟度を高めていくアプローチが推奨されます。
って内容でした。タイトルは FinOps となっていますが、今後AIを導入している多くの組織にとって参考になる内容なんじゃないかな。感じました。
めでたしめでたし。