こんにちは。島村です。
re:Invent 2023 始まりましたね。
私は今年も来ることができ、現地で参加をしています。
今年の現地で初めて参加したWorkshop DOP301: Boost your application availability with AIOps on AWS
の参加レポートを書いてみます。
概要
今回参加したWorkshop はAIOpsを体験する Workshop です。
AIOpsとは、運用の取り組みの中にAIを活用することで運用上の問題の検出やデバッグ、
解決に費やす時間と労力を削減することを狙いとした概念です。
AWSでも、AIOPSのサービスは存在していますが、
今回はDevOps Guru,CloudWatch Anomary Detection,X-Ray Insightにフォーカスして進めていきます。
なお、当Worpshopには架空のゲーム会社でリリース予定のオンラインゲームでライブ ストリーム登録システムのデータ ラグがあり、
原因を解決するためにコンサルタントとして派遣された程で進めていきます。
また、環境構成は次のとおりです。
アプリケーション
ユーザー登録システム
現状の監視ツール
AIOPSを含めた監視構成
ゲーム体験
Cloud9にあらかじめアプリケーションコードなどは用意されており、実際にゲームをすることができました。
スコアなども確認することができ、本格的でインベーターゲームのようなゲームで音も可愛らしく結構ハマりそうです。
WorpShop
さて、メインのWorkshopです。
体験できる内容としては以下のとおりです。
・1.アプリケーション(DynamoDB)に関するDevOps Guru 検出と解決 ・2.ユーザー登録システムに関するDevOps Guru 検出と解決 ・3.RDSに関するDevOps Guru 検出と解決
うまく、1.2も試したのですが、操作を誤ったのか想定された動作が確認できず、実施できたのは RDS だけでした。
1の項目では、DevOps Guruで異常検出させるために、アプリケーション自体に負荷をかけていきました。
負荷試験で使うツールはArtilleryを使用しており、一定期間リクエスト数と負荷時間だけ変更して負荷をかけました。
本来であれば、10分程度で検出されるのですが、いくらかけても検出としては出てこなかったので、RDSへ移りました。
RDSのWorkShopでは、アプリケーションとは関係がなく、テーブルをロックした状態でpythonスクリプトによって
テーブルロックしたテーブルにアクセスを行い続けるというものでした。
テーブルはロックしたので、スクリプトで実施している処理がされないままで放置すると、DevOps Guruで検出し対応するという内容です。
以下のとおり、テーブルロックしたためインサイトで検出しており、ロックされていることを検知します。
スクリプトを動作させて3分ほどで検知されていました。
テーブルロックを解除し、最後にスクリプトを流せばアラートは消えていました。
最後に
Workshop自体は、全て終わらせることができずにタイムアップしてしまいました。
Workshopはそれぞれ専用のイベントページで発行されているようで、環境の有効期限も短いため後から復習することができなかったのが少し残念です
当Workshopでは、DevOps Guruを中心に触れることができましたが、運用上の問題を検出することができる上に、なぜ検出されたのかもメトリクスで詳細に確認することが可能です。RDSも対応しているので、RDSから始めてみるのもありかと思いました。
DevOps Guru についてはもう少し深掘りしていきたいと思います。
島村 輝 (Shimamura Hikaru) 記事一覧はコチラ
最近ECS周りをキャッチアップ中。趣味は車・バイク全般。
一応、AWS12冠です。