PagerDutyを使ってみた

この記事は1年以上前に書かれたものです。
内容が古い可能性がありますのでご注意ください。
みなさんこんにちは。
技術研究課の山田です。 さて、私が所属している技術研究課ではR&Dを継続的に実施することで、業務フローの改善や他課をサポートする活動を日々行っています。
今回はその一環で PagerDuty を触る機会があったのでレポートします。

PagerDuty とは
 

pagerduty_logo_green  
PagerDuty -  https://www.pagerduty.com/ アプリ、サーバ等からの通知をきっかけに、予め定義していたエスカレーションポリシーとスケジューリングに基いて様々なアクションを実行することができるSaaSです。
SaaSなので利用者側でサーバを用意する必要がなく、すべての操作/設定はWeb上のインターフェースから行います。 ※ APIも用意されています

PagerDuty の主な機能

様々な監視ツール(Datadog, Mackerel, Zabbix 等) からのアラート通知をPagerDutyで集約して、予め設定/登録した任意の通知ルールに従って様々なアクションを実行できます。
通知の例として 電話・SMS・メール・プッシュ型のアラート通知 (iOS or android 用のアプリが用意されています) 等があります。

PagerDuty 設定の流れ

実際の設定画面に沿って手順をご説明します。
尚、PagerDuty のアカウントは登録済であることを前提としています。

1. User の登録

まずは User を作成していきましょう。
上部メニューバーの Configuration -> Users をクリックし、Add Users をクリックします。 pager_duty_1   ユーザ名/メールアドレスを入力し、Add をクリック、Send invites をクリックします。
これで PagerDuty への招待メールが、入力したメールアドレス宛に届いているはずなのでメールの内容に従って手続きを進めましょう。 pager_duty_5
    設定を進めてログインすると、ユーザ自身の設定画面に移動します。
ここでインシデントの通知先となる 電話/SMS/メール の情報を入力します。 PagerDuty では、各ユーザへの通知するための手段は基本的にユーザ自身で設定します。
(管理者側で設定することも可能です) pager_duty_2   続いて、インシデントが発生した際の通知ルールについて設定します。
Notification Rules タブをクリックし、下記画像の赤枠で囲われた部分を編集していきます。 ここでは、インシデントが自分へアサインされた場合にどう通知するのかを設定します。
下記設定例では、 インシデント発生直後にメールを送信

15分間認知されなければ SMS へメッセージを送信 

30分間認知されなければ 電話
というような流れになります。 pager_duty_15 通知ルールについてはこの他にも 「自分がアサインされているインシデントのステータスが変更になった時」
「緊急度低のインシデントがアサインされた時 など、細かくルールを自分で決めることができます。
が、今回は割愛します。  

2. エスカレーションポリシーの作成

つづいて、エスカレーションポリシーの作成を行います。
インシデント発生後のユーザアサイン/エスカレーションのルールを設定します。 上部メニューバーの Configuration -> Escalation Policies をクリックし、New Escalation Policy をクリックします。 pager_duty_8   下記画面が実際にエスカレーションポリシーを入力する設定画面になります。
インシデントが発生すると、まず左側タイムラインの ① と表示されている階層にあるユーザへ通知/アサインが成され、①の階層のユーザが30分間誰も認知/対応しない場合は ②の階層へエスカレーションされます。
(エスカレーションされるまでの時間は変更可能です) ②の下の + をクリックすることで 3次受け、4次受け ... と階層を作って、エスカレーションのルールを作成することができます。
また、認知した場合でも手動で次の階層へエスカレーションすることも可能です。
この辺りの柔軟さが魅力的ですね。 pager_duty_14 今回はユーザを1名、1階層のみとして設定を進めます。
Alert the following users or schedules へ先ほど作成したユーザを入力して、Save をクリックします。 pager_duty_9  

3. Service の登録

最後に、外部からの通知の受け口となる Service を登録します。 上部メニューバーの Configuration -> Services をクリックし、Add New Service をクリックします。 pager_duty_11     各項目を入力していきます。 Name :
Service へ設定する名前を入力 Notification Urgency :
このサービスから発生するインシデントの緊急度を選択します。
今回は High で設定します。 Escalation Policy : 
先ほど作成(2.の手順)したポリシーを選択します。
このサービスから発生するインシデントは、このポリシーに従ってエスカレーションされます。 Integration Type :
どういう形で通知の受け口を用意するのかという設定です。
今回はメール受信をきっかけにインシデントを発生させたいので、Integrate via email を選択します。
メールの他にもあらかじめ PagerDuty 側で用意されています。 How to Integrate With PagerDutyhttps://www.pagerduty.com/docs/ Integration Email :
PagerDuty が発行する xxxxx@pagerduty.com という形式のメールアドレスで、xxxxx の部分はユーザ側で任意に設定が可能です。
このメールアドレス宛にメールを送信するとインシデントが発生します。 pager_duty_21 すべての項目を入力後、Add service をクリックしてサービスを登録しましょう。  

インシデントを発生させる

さて、一通りの設定が終わったのでインシデントを発生させてみましょう。 先ほど設定した Integration Email 宛てにメールを送信します。 pager_duty_16   すると、下記内容のメールを受信します。
本来ならここで何かしらの対応を取るのですが、今回は自分で設定した通知ルールが正常動作するか確認したいので、何もしないまま30分間放置します。 pager_duty_17   ちなみに、自分がアサインされているインシデントの一覧はダッシュボードから確認できます。
各インシデントの詳細画面へ移動して、そこから手動で2次受けへエスカレーションすることも可能です。
pager_duty_18   15分経過して SMS を受信しました。
14:Ack, 16:Resolv とありますが、それぞれの数字を返信することでインシデントに対してのアクションを取ることができます。 pager_duty_20 30分経過して 着信がありました。
電話を取ると、英語でインシデント内容を読み上げてくれます。
Screenshot_2015-10-08-12-52-06  

まとめ

この記事では紹介していませんが、「スケジュールを組んで曜日/時間帯によって通知先を切り替える」といった詳細な設定も可能です。
電話/SMS/メールなどユーザへの通知方法がたくさん用意されていることも魅力的ですが、状況に合わせて通知ルールとエスカレーションルールを柔軟に定義できるのが一番の魅力ではないでしょうか。    

AWS運用自動化サービス「Cloud Automator」無料トライアルはこちらから

COMMENT ON FACEBOOK