New Relic実践入門 監視からオブザーバビリティへの変革 書評 -後編-
こんにちはCloud Automator、SREチームの尾崎です。
Cloud AutomtorのSREチームは2021年に発足したチームでこれまでの機能開発業務に加えて、サービスの信頼性向上のための業務も責任を持って行うチームとなっています。
SREチームの取り組みなどはまた別のブログ記事で紹介できればと考えています。
前編の
ではNew Relic株式会社様から提供いただいた「New Relic実践入門 監視からオブザーバビリティへの変革」の内容と書評の投稿がありましたが、本記事では私が「New Relic実践入門 監視からオブザーバビリティへの変革」を読んだ感想と、実際に試してみた内容を紹介しようと思います。
ちなみに、Cloud AutomatorではNew RelicをWebアプリケーションサーバーに対しての監視に利用しています。
感想
個人的にはこの本のPart 3「New Relicを活用する」にある「SRE: Service Levelと4つのゴールデンシグナル可視化パターン」がとても参考になりました。このセクションではSRE向けのダッシュボードの例が解説されています。
New RelicはNRQL(New Relicクエリ言語)と呼ばれるSQLのようなクエリを書くことでメトリクスを可視化させることが出来るのですが、そのNRQLは記述方法が独特なことから、取りかかるのには少々ハードルが高いと感じていました。
しかし、この本のSREチーム向けのダッシュボード作成の項目では、SRE向けのメトリクスをどのようなNRQLで可視化できるのかが具体例として記載されているため、その内容を参考にして自分たちに合ったダッシュボードの作成に取りかかることが出来ます。まさに「実践入門」という本の名にふさわしいと思いました。
早速やってみた
これまでCloud AutomatorのSREチームではジョブ実行基盤向けにはダッシュボードを整備して活用してきましたが、Webアプリケーション向けにはダッシュボードを作成せず、New RelicのAPMのページを利用することで各種メトリクスを確認してきました。
デフォルで用意されているNew RelicのAPMのページが非常によく出来ているため、作る必要が無かったという理由もあります。
今回は「SRE: Service Levelと4つのゴールデンシグナル可視化パターン」を参考に、Cloud Automatorの開発・検証環境を利用して、SREチームが確認しているメトリクスをダッシュボードとして作成してみることにしました。
出来上がったダッシュボードが次のスクリーンショットです(SLO等の値はプロダクション値とは異なります)。
APMページで集中的に見ていた部分をダッシュボードにまとめたことで、見る部分が限定され、非常にわかりやすくなったと感じています。
また、APMページに表示されているメトリクスをそのままダッシュボードに追加する機能があることを知り、全てのメトリクスに対してNRQLを書く必要が無かったため、ダッシュボードの作成時間がそれほどかからなかったのも良かったです。
まとめ
この記事では「New Relic実践入門 監視からオブザーバビリティへの変革」を読んで得られた知見と、実際に試してみた内容を紹介しました。
この本を読み、実際に試してみたことで、メトリクスの可視性が向上してサービス提供の健全性の確認作業の効率化が期待できる、ということがわかりました。
実際に他のSREチームのメンバーからも、ダッシュボードで1つにまとまっているのはやはり見やすいという好意的なフィードバックが得られており、今後はこのダッシュボードの内容を元にしてプロダクション環境に合わせて拡張して本格採用したいと考えています。