やさしい AIF（ドメイン 4）

おなかが痛くてもコーヒーは飲む、近藤恭平です。

前回は基盤モデルを活用したアプリ設計・プロンプトエンジニアリング・ファインチューニングを整理しました。今回は、AI を正しく・安全に使うための責任ある AI（Responsible AI）の考え方と、それを支える AWS サービスを解説します。試験ガイドのドメイン4に対応した内容です。

責任ある AI とは

AI システムは「精度が高い」だけでは不十分です。出力が公平か、説明できるか、安全に運用されているか、これらを組織として担保することが求められます。

試験では以下の原則がキーワードとして問われます。

原則	内容
公平性（Fairness）	特定の人種・性別・属性に対して不当な差別が生じないよう設計する
説明可能性（Explainability）	モデルがなぜその出力を返したかを人間が理解できる形で示せる
堅牢性（Robustness）	予期しない入力・ノイズ・攻撃に対してもモデルが安定して動作する
プライバシーとセキュリティ	個人情報（PII）を保護し、不正アクセスや情報漏洩を防ぐ
ガバナンス（Governance）	AI の開発・運用に関するルール・プロセス・監査体制を整備する
透明性（Transparency）	開発プロセス・使用データ・モデルの限界をステークホルダーに開示する

バイアス：公平性を損なう主な原因

AI モデルが不公平な出力を生む背景には、バイアス（偏り）の問題があります。

クラスの不均衡

トレーニングデータに含まれるクラスの比率が偏っている状態です。

具体例： 採用可否を判定するモデルのトレーニングデータが「男性70%・女性30%」で構成されている場合、モデルは男性を有利に判定する傾向が生まれる。

人口統計の格差

特定の人口統計グループに対してモデルの精度が著しく異なる現象です。あるグループには高精度、別のグループには低精度というアンバランスが生まれます。

不正確さ・過剰適合・過少適合

問題	内容
不正確さ（Inaccuracy）	ラベル付けの誤りや不完全なデータによる根本的な品質問題
過剰適合（Overfitting）	トレーニングデータに対しては高精度だが、未知データへの汎化能力が低い
過少適合（Underfitting）	トレーニングデータに対しても精度が低く、モデルの表現力が不足している

責任あるデータセットの構築

バイアスはモデルの問題である前に、データの問題です。

責任あるデータセットを構築するための実践指針は以下の通りです。

クラスの不均衡を解消する： アンダーサンプリング・オーバーサンプリング・データ収集の見直しで比率を調整する
インクルーシビティと多様性： 性別・年齢・人種・地域など多様な属性が均等に含まれるよう配慮する
プライバシー保護： PII（個人識別情報）を適切に匿名化・削除してから学習に使用する
同意と透明性： データの収集・利用目的を明示し、必要な同意を取得する
定期的な監査： データとモデルの偏りを継続的にモニタリングし、必要に応じてデータを更新する

SageMaker Clarify によるバイアス検出

Amazon SageMaker Clarify は、トレーニングデータとモデルの出力に含まれるバイアスを定量的に検出・分析するサービスです。

バイアス検出で使われる主なメトリクス

メトリクス	内容
正の比率の差（DPL）	グループ間での「正の予測」の割合の差を測る。0 に近いほど公平
特異度差	グループ間での「陰性を正しく陰性と判定する能力」の差を測る
リコール差	グループ間での「陽性を正しく陽性と判定する能力」の差を測る
精度差	グループ間での全体的な予測精度の差を測る
処理の同等性	予測誤りの種類と頻度がグループ間で均等かを評価する

説明可能性の評価

SageMaker Clarify は特徴属性（Feature Attribution）の分析も提供します。各入力特徴量がモデルの出力にどの程度影響しているかを可視化し、「なぜこの判定になったか」を説明できるようにします。

基盤モデルの評価

FM に対しては以下の観点での評価も実施できます。

評価軸	内容
テキスト生成・要約・QA・分類	タスクごとの出力品質を測る
プロンプトステレオタイピング	特定の属性に関するプロンプトに対して偏った応答が出ないかを確認する
有害性	有害・差別的・不適切なコンテンツが生成されていないかを評価する
事実知識	事実に基づいた正確な回答ができているかを評価する
セマンティック堅牢性	意味が同一でも表現が異なるプロンプトに対して一貫した出力が得られるかを確認する

モデルの透明性

透明性（Transparency）とは、AI モデルの動作・開発プロセス・使用データをステークホルダーが理解・検証できる状態を指します。

透明性とセキュリティのトレードオフ

透明性を高めることは必ずしも良いことだけではありません。モデルの内部構造が公開されていると、攻撃者がその仕組みを利用してより精巧な攻撃を構築しやすくなります。

方向性	利点	欠点
透明性を高める（オープンソース）	コミュニティによる改善・監査が可能。安全性の検証がしやすい	内部構造が露出し、脆弱性を突かれるリスクが高まる
透明性を低くする（クローズド）	内部を解釈されにくくなり、標的型攻撃への耐性が高まる	外部からの監査・検証が困難。ブラックボックス化のリスク

AI Service Card と SageMaker Model Card

docs.aws.amazon.com

モデルの透明性を文書化する手段として、以下の仕組みが利用されます。

ドキュメント	内容
AI Service Card	AWS が自社 AI サービスの設計思想・ユースケース・制限事項・責任ある使用ガイドラインを公開した文書
SageMaker Model Card	開発者が自社モデルの目的・性能・バイアス評価・使用上の注意を記録・共有するための標準フォーマット

人間中心の AI

人間中心の AI（Human-Centered AI）とは、AI の設計において人間のニーズ・価値観・倫理を最優先にするアプローチです。

人間のニーズと価値観を優先： 技術的な最適化よりも、実際の利用者への影響を重視します
多様な視点と専門知識： 開発チームに多様な背景を持つメンバーを含め、偏った設計を防ぎます
人間の能力を強化： AI は人間の判断を補助・拡張するものであり、完全に代替するものではないという立場をとります

人間によるレビューを組み込む仕組み

AI の出力に人間がレビューを加えることで、精度向上と品質担保を実現するサービス群があります。

Amazon Augmented AI（A2I）

Amazon Augmented AI（A2I）は、機械学習モデルの予測に対して人間によるレビューを組み込むためのフルマネージドサービスです。

モデルの信頼度スコアが閾値を下回った場合に、自動で人間レビューワーにタスクを送信します
レビュー済みのデータをトレーニングデータセットに追加することで、モデルを継続的に改善できます
レビュワーとして Amazon Mechanical Turk（クラウドソーシング）や社内のプライベートワーカーを利用できます

具体例： 保険証の内容を OCR で読み取るシステムで、AI の読み取り精度が低い場合にのみ人間に確認を依頼し、その修正結果をモデル改善に活用する。

Amazon SageMaker Ground Truth

Amazon SageMaker Ground Truth は、機械学習用のラベル付き（アノテーション）データセットを効率的に作成するサービスです。

ヒューマンワーカーがデータに正解ラベルを付与します
ラベリングの一部を自動化（Active Learning）することでコストを削減できます
A2I と同様に Mechanical Turk・プライベートワーカーを活用できます

RLHF（人間のフィードバックからの強化学習）

RLHF（Reinforcement Learning from Human Feedback）は、人間の評価・好みをフィードバックとして取り込み、モデルの出力を人間の期待値に近づける手法です。ChatGPT の品質改善にも採用されており、現在の高品質な FM の多くがこの手法を経ています。

次回は、AWS の AI・ML サービス全体像と、試験に向けた総まとめを解説します。