障害対応時に AWS Direct Connect を手動で VPN へとフェイルオーバーする手法について

記事タイトルとURLをコピーする

営業部 佐竹です。
本日は、2021年9月2日 の 午前7時30分から午後1時42分までの間に発生していた「東京リージョンにおけるダイレクトコネクト(専用線:以下 DX と記載)障害に関する記事となります。

はじめに

9月2日の7:59:00 AM頃、AWS Health Eventとして以下の通知が行われました。

[4:00 PM PDT] 現在、一部の AWS Direct Connect 接続と AP-NORTHEAST-1 リージョン間で発生したネットワーク接続性の問題に関して調査を行なっております。

本障害は、東京リージョンの全域で発生しており、9月2日13:42 頃(Personal Health Dashboard では 1:50 PM 頃に通知)に収束(回復)致しました。

実際の Chatbot の通知内容は以下の通りです。 f:id:swx-satake:20210902124509p:plain

影響範囲について

本障害は東京リージョンにおいて AWS ダイレクトコネクト全域(全 Availability Zone)に発生していると考えられます。また、障害はパケットロスが頻発となっていますため、完全に主系がダウンしておりません。

そのため、以下の状況と考えられます。

  • ダイレクトコネクトを複数敷設している場合でも障害が回避できないと想定されること
  • 完全なるダウンではないため、主系から副系へと自動的に切り替え(フェイルオーバー)が起きない可能性があること

補足ですが、インターネットからの通信の経路を取る Amazon WorkSpaces への接続や、Client VPN を利用した接続等には障害の影響はなく通常通りご利用頂けます。

一時的な対応策

f:id:swx-satake:20210902131453p:plain
ダイレクトコネクトと Site-to-Site VPN を活用した冗長構成図

本件の回避策として有効な方法は、DX から Site-to-Site VPN へのフェイルオーバーがあげられます。本回避策は既にお客様に実施して頂いており、本障害からの回避と Site-to-Site VPN 経由での通信の回復を確認しております。

ただし、この対応には「DX を手動でフェイルオーバーさせる」必要があります。それを今回対応方法として記載致します。

また残念ながら「DX と Site-to-Site VPN」ではなく、「DX と DX」で冗長化を組んでいる場合には、現時点で対応策がございませんため AWS 側の復旧をお待ちいただく必要がございます。

DX をダウンさせる

方法としては以下が考えられます。

1-1. CGW で NIC を Shutdown する

CGW とは、カスタマーゲートウェイの略であり、DX を結線しているお客様管理(またはベンダー管理)の物理機器のことを指します。

これは、機器にリモート操作ができる権限を保持している必要があります。フェイルバックする場合は、再度手動で Up させる必要があります。

1-2. 物理線を抜く

これは、CGW 設置場所に行く必要があり、機器に物理的にリーチできる必要があります。

戻すときに機器側に設定変更の必要がない点がメリットです。ただし昨今のコロナ禍では、機器にリーチできない状況である場合が多いとも想定されます。

設定にもよりますが、物理線を抜いた後1分程度で切り替えが行われます。フェイルバック時には、抜いた物理線を再び差し込むだけで戻ります。

1-3. DX フェイルオーバーテストの実行

blog.serverworks.co.jp

マネジメントコンソールから BGP ピアをダウンさせることが可能となっています。上記ブログをご参考ください。

メリットとしては設定変更なくフェイルオーバーができる点と、フェイルバックも任意のタイミングで実施できる点です。

ただし本操作の継続可能時間は「最大3時間(180分)」となっており、設定した時間が来ると自動的にフェイルバックしてしまう点に注意してください。3時間以内に DX 障害が回復していない場合は、再度フェイルオーバーを手動で実施することになる想定です。

2021年10月5日 追記

Direct Connect Gateway と Transit Gateway 間の関連付けを解除することでも VPN へフェイルオーバーが可能なことがわかりました。詳細は以下のブログに記載しておりますので、合わせてご確認ください。

blog.serverworks.co.jp

BGP 設定で対応する

BGPの設定で行う方法としては以下が考えられます。

2-1. 広報経路を更新する

Site-to-Site VPN 側の CGW から、「DX 側より詳細なオンプレ経路(ロンゲストマッチな経路) をAWSに広報する」ことを実施します。

加えて、オンプレミスから AWS 宛のゲートウェイを VPN 側の CGW に向ける (VRRP, OSPF, IBGP 等にて実施を行う)必要があります。

なお、DX を主系とし、Site-to-Site VPN を副系としている構成でこれを行う場合は、経路制御に AS Path を使えない点に注意してください。

その他の手法

ダイレクトコネクトの VIF (Virtual Interface) と VPC にアタッチされている VGW (Virtual Private Gateway) の紐付けは、一時的にデタッチできない仕様です。そのため VIF を削除するという手法で経路を切断できますが、復旧の視点では本手法は有効ではないと想定しており、推奨は難しい手法となります。

参考情報

Personal Health Dashboard の履歴1

  • Start time:September 2, 2021 at 7:59:00 AM UTC+9
  • Last update time:September 2, 2021 at 2:07:53 PM UTC+9

[4:00 PM PDT]

現在、一部の AWS Direct Connect 接続と AP-NORTHEAST-1 リージョン間で発生したネットワーク接続性の問題に関して調査を行なっております。| We are investigating network connectivity issues between some AWS Direct Connect connections and the AP-NORTHEAST-1 Region.

[4:45 PM PDT]

日本時間 2021/09/02 07:30 から一部の AWS Direct Connect 接続と AP-NORTHEAST-1 リージョン間にネットワーク接続性の問題が発生していることを確認しております。この問題について調査を行っております。| Starting at 3:30 PM PDT, we began to experience network connectivity issues, impacting AWS Direct Connect connectivity between some AWS Direct Connections and the AP-NORTHEAST-1 Region. We are actively investigating the issue.

[6:49 PM PDT]

一部の AWS Direct Connect 接続と AP-NORTHEAST-1 リージョン間にネットワーク接続性の問題について追加の情報をご案内いたします。日本時間 2021/09/02 07:30 からコアネットワークデバイスに複数の問題が発生していることを確認しております。現在、問題が発生したデバイスについて復旧を進めており、デバイスがオンラインの状態に戻ることで接続性の問題が解消することが期待されます。現状では復旧の目途に関する情報はございません。進展がございましたら、随時更新致します。| We wanted to provide some more information for the event affecting some Direct Connect network connectivity in the AP-NORTHEAST-1 Region. Starting at 3:30 PM PDT, we began to experience network connectivity issues due to some failures in core networking devices. We are currently working on restoring these devices and we expect some restoration of connectivity as these devices come back online. We currently do not have an ETA on full recovery and will update further as information comes to hand.

[6:49 PM PDT]

現在引き続き故障したデバイスの復旧を試みており、完全な復旧の目途に関する情報はございません。今回の問題によりサイト間 VPN の接続性への影響はなく、VPN へのフェイルオーバーのオプションがあるお客様に関しては、VPN にフェイルオーバーいただくことをお勧めいたします。| We are still trying to recover the failed devices and do not have an ETA on full recovery. VPN connectivity is not impacted by this failure, and those customers that have that option available for failover are recommended to do so to achieve recovery.

[9:56 PM PDT]

日本時間 2021/09/02 07:30 から 13:42 の間、Direct Connect 接続を利用した AP-NORTHEAST-1 リージョン内の AWS サービスへの通信においてパケットロスの増加が発生しました。今回の事象は、 Direct Connect を利用したネットワークトラフィックを AP-NORTHEAST-1 リージョン内の全てのアベイラビリティーゾーンに接続するのに使用される複数のコアネットワークデバイスの問題に起因しておりました。現在問題は解消し、サービスは正常に稼働しています。| Between 3:30 PM and 9:42 PM PDT we experienced elevated packet loss for customers connecting to AWS services within AP-NORTHEAST-1 Region through their Direct Connect connections. This was caused by the loss of serveral core networking devices that are used to connect Direct Connect network traffic to all Availability Zones in the AP-NORTHEAST-1 Region. The issue has been resolved and the service is operating normally.

Personal Health Dashboard の履歴2

  • Start time:September 2, 2021 at 9:39:00 AM UTC+9
  • Last update time:September 2, 2021 at 2:07:37 PM UTC+9

[05:39 PM PDT]

日本時間 2021/09/02 07:30 から一部の AWS Direct Connect 接続と AP-NORTHEAST-1 リージョン間にネットワーク接続性の問題が発生していることを確認しております。この問題について調査を行っております。| Starting at 3:30 PM PDT, we began to experience network connectivity issues, impacting AWS Direct Connect connectivity between some AWS Direct Connections and the AP-NORTHEAST-1 Region. We are actively investigating the issue.

[06:02 PM PDT]

一部の AWS Direct Connect 接続と AP-NORTHEAST-1 リージョン間にネットワーク接続性の問題について追加の情報をご案内いたします。日本時間 2021/09/02 07:30 からコアネットワークデバイスに複数の問題が発生していることを確認しております。現在、問題が発生したデバイスについて復旧を進めており、デバイスがオンラインの状態に戻ることで接続性の問題が解消することが期待されます。現状では復旧の目途に関する情報はございません。進展がございましたら、随時更新致します。| We wanted to provide some more information for the event affecting some Direct Connect network connectivity in the AP-NORTHEAST-1 Region. Starting at 3:30 PM PDT, we began to experience network connectivity issues due to some failures in core networking devices. We are currently working on restoring these devices and we expect some restoration of connectivity as these devices come back online. We currently do not have an ETA on full recovery and will update further as information comes to hand.

[06:43 PM PDT]

現在引き続き故障したデバイスの復旧を試みており、完全な復旧の目途に関する情報はございません。今回の問題によりサイト間 VPN の接続性への影響はなく、VPN へのフェイルオーバーのオプションがあるお客様に関しては、VPN にフェイルオーバーいただくことをお勧めいたします。| We are still trying to recover the failed devices and do not have an ETA on full recovery. VPN connectivity is not impacted by this failure, and those customers that have that option available for failover are recommended to do so to achieve recovery.

[07:33 PM PDT]

現在 AP-NORTHEAST-1 リージョン内の故障したデバイスの復旧に取り組んでおりますが、現時点において完全な復旧の目途に関する情報はございません。今回の問題によりサイト間 VPN の接続性への影響はなく、VPN へのフェイルオーバーのオプションがあるお客様に関しては、VPN にフェイルオーバーいただくことをお勧めいたします。| We are continuing to work on recovering a number of failed devices within the AP-NORTHEAST-1 Region, but do not have an ETA on full recovery. VPN connectivity is not impacted by this failure, and those customers that have that option available for failover to VPN are recommended to do so to achieve recovery.

[08:20 PM PDT]

現在 AP-NORTHEAST-1 リージョン内の故障したデバイスの復旧に取り組んでおりますが、現時点において完全な復旧の目途に関する情報はございません。今回の問題によりサイト間 VPN の接続性への影響はなく、VPN へのフェイルオーバーのオプションがあるお客様に関しては、VPN にフェイルオーバーいただくことをお勧めいたします。Direct Connect Gateway と Transit Gateway をご利用のお客様に関しては、AWS Site-to-Site VPN をご作成いただき Transit Gateway にアタッチしてご利用いただくことをお勧めいたします。こちらの VPN へのフェイルオーバーの設定手順に関しては次の記事をご参照ください: https://aws.amazon.com/premiumsupport/knowledge-center/dx-configure-dx-and-vpn-failover-tgw/ | We are continuing to work on recovering a number of failed devices within the AP-NORTHEAST-1 Region, but do not have an ETA on full recovery. VPN connectivity is not impacted by this failure, and those customers that have that option available for failover to VPN are recommended to do so to achieve recovery. For customers using Direct Connect gateway and Transit Gateway, we recommend creating an AWS Site-to-Site VPN and attach it to your Transit Gateway. Instructions for how to do this failover can be found here: https://aws.amazon.com/premiumsupport/knowledge-center/dx-configure-dx-and-vpn-failover-tgw/

[09:06 PM PDT]

復旧の兆しが確認できておりますが、引き続き事象の完全な解消に取り組んでおります。VPN を使用するワークアラウンドを実施いただいているお客様につきましては、完全な復旧のご連絡まではワークアラウンドを継続してご利用いただくことをお勧めいたします。| We are beginning to see signs of recovery, and continue to work toward full resolution. We suggest that customers that may have implemented the suggested workaround via VPN continue to use this workaround until we advise of full recovery.

[09:51 PM PDT]

日本時間 2021/09/02 07:30 から 13:42 の間、Direct Connect 接続を利用した AP-NORTHEAST-1 リージョン内の AWS サービスへの通信においてパケットロスの増加が発生しました。今回の事象は、 Direct Connect を利用したネットワークトラフィックを AP-NORTHEAST-1 リージョン内の全てのアベイラビリティーゾーンに接続するのに使用される複数のコアネットワークデバイスの問題に起因しておりました。現在問題は解消し、サービスは正常に稼働しています。| Between 3:30 PM and 9:42 PM PDT we experienced elevated packet loss for customers connecting to AWS services within AP-NORTHEAST-1 Region through their Direct Connect connections. This was caused by the loss of serveral core networking devices that are used to connect Direct Connect network traffic to all Availability Zones in the AP-NORTHEAST-1 Region. The issue has been resolved and the service is operating normally.

参考情報

f:id:swx-satake:20210902144221p:plain

DX に接続された Transit Gateway に対して Site-to-Site VPN を導入する場合は、上図のような構成になります。

まとめ

本ブログでお伝えしたいことは以下の通りです。

  1. 9月2日に発生していた障害に関して、ダイレクトコネクトへの影響は東京リージョン全域である
  2. ダイレクトコネクトのロケーションを冗長化していても今回の問題の影響がある
  3. ダイレクトコネクトと Site-to-Site VPN で冗長化を組んでいる場合に、VPN にフェイルオーバーすることで本障害を回避できる可能性がある
  4. ダイレクトコネクトはパケットロスが頻発の状態であり完全なダウンではないため、自動的なフェイルオーバーが起きない可能性が高い
  5. ダイレクトコネクトから Site-to-Site VPN へのフェイルオーバーは手動で対応を行うことで実施が可能(※今回はその方法の紹介)

取り急ぎ記載まで。

では、またお会いしましょう。

2021年9月3日 追記

本ブログの内容をスライド資料としてまとめ、以下の報告として掲載しておりますため、合わせてご確認頂けますと幸いです。

www.serverworks.co.jp

※2021年9月3日 12:00 JST 時点では AWS からのレポートがない状況であり、本内容は今後公開されると推測されますレポートの内容に照らし合わせて修正が行われる可能性がございます

2021年9月7日 12:00 追記

AWS 公式のパブリックメッセージとして「東京リージョン(AP-NORTHEAST-1)で発生したAWS Direct Connectの事象についてのサマリー」が提示されましたので、以下にリンクを紹介いたします。

aws.amazon.com

2021年9月8日追記 公式メッセージを確認して

AWS サポートケースの起票を行い、一部疑問があった点を質問して回答を得ましたため、こちらに追記します。

他の AWS リージョンへの Direct Connect トラフィックも影響を受けませんでした。 と記載されている通り、今回の障害は東京リージョンに限られておりました。よって、DXGW を経由した大阪リージョンへの接続に問題は発生しておりませんでした。

補足となりますが、以下のURLに記載のある通り、現在は大阪リージョンに直接関連付けられた DXロケーション はありません。そのため、まずは東京リージョンにある DX ロケーションへと DX を接続し、その後 DXGW を利用して大阪リージョンへの接続が必要となります。

また、以下の FAQ に記載されている通り、DXGW は DX ロケーションに関連付けられたホームリージョン (OS1 の場合は、東京リージョンがホームリージョンとなる) を経由するわけではありません。経路はご利用いただいている DX ロケーションと、大阪リージョン間の最短パスを取ります。

Q.Direct Connect ゲートウェイを使用する場合、希望する AWS リージョンへのトラフィックは、関連する AWS のホームリージョンを経由しますか?

いいえ。Direct Connect ゲートウェイを使用する場合、ユーザーが接続している Direct Connect のロケーションに関連付けられた AWS のホームリージョンに関係なく、トラフィックは Direct Connect のロケーションから送信先の AWS リージョン間 (およびその逆方向で) の最短パスを取ります。

例えば OS1 に対して DX を敷設している場合、OS1 から最短経路で大阪リージョンへとアクセスされます。

佐竹 陽一 (Yoichi Satake) エンジニアブログの記事一覧はコチラ

マネージドサービス部所属。AWS資格全冠。2010年1月からAWSを利用してきています。2021-2022 AWS Ambassadors/2023 Japan AWS Top Engineers/2020-2023 All Certifications Engineers。AWSのコスト削減、最適化を得意としています。