2022年7月2日 (土)~7月4日 (月)にかけて、61時間25分にわたり発生したau回線の通信障害に関する詳細と再発防止策、今後の動向についてまとめていきます。
「au / povo / UQモバイルを契約しようと思っているけど、もう大丈夫なの?」
と思っているアナタ、もう大丈夫でしょう!
発生原因と再発防止策の詳細から確認していきましょう。
当記事の情報ソースは、au公式サイト・総務省による指導文書になります。
https://www.kddi.com/important-news/20220729_01/
https://www.soumu.go.jp/main_content/000828525.pdf
通信障害発生の概要と3要因
auの公式発表・総務省の指導文書によると、今回の通信障害の原因は大きく分けて、3つの要素が影響していたようです。
- 【作業ミス】ルーターメンテナンス時の経路誤設定
- 【広範化】多摩以外のVoLTE交換機へも影響が伝播
- 【長期化】加入者DBの切り離しにより、データ復旧作業に時間を要する結果に
と言った要素が絡み、通信障害が広範化・長期化しました。
つまり、これらつに対する、改善策・再発防止策が要求されます。
総務省では、上記に加え、障害発生時の顧客サポート・広報体制に関しても、改善を要求しています。
また、今回の通信障害の原因・措置状況・再発防止策等の詳細を同業他社に説明・情報共有する場を設けること、事故発生時の周知広報や連絡体制についてのルール策定を率先して執り行うことをauに要求しています。
1. 人為的ミスの発生
auの公式発表では、
「多摩設置の全国中継網ルータのメンテナンス作業を実施中に、ルータの経路を誤設定。」
総務省の指導文書では、
「全国中継網におけるコアルータのメンテナンス作業において誤った作業手順書を用いたこと」
という記載があります。
つまり、「誤った作業手順書を使用したことによる、ルーターの経路を誤設定した人為的ミス」が今回の通信障害の根本的な原因となっています。
このミスをしたことにより、15分の音声通話障害が発生し切り戻しを行ったところ、VoLTE交換機の輻輳が発生。
次の大規模化へと続きます。
2. 大規模化
コアルーターのルーティング設定を誤り切り戻しを行ったことにより、多摩のVoLTE交換機において輻輳が発生。
VoLTE交換機が輻輳により壊れたバックアップファイルによる異常起動状態を継続し、加入者DBへも影響を与えるなど、複数の異常状態が連鎖的に発生。
これと同時に、分散処理を行うシステム設計の為、他エリアのVoLTE交換機でも輻輳が発生。
3. 長期化
VoLTE交換機の切り離し作業に加え、加入者DBの異常が発生した為、位置情報登録要求・信号接続要求・データ/音声接続要求の流量制御を行っても加入者DBの輻輳は解消されず。
最終的に、加入者DBを管理するPGW(Packet data network GateWay)と言われるモバイル網設備の切り離し作業を行うも、切り離したことにより、データの同期作業が行われず、データ復旧・同期作業が発生。
輻輳状態という特殊な環境下でのネットワーク復旧作業が確立されておらず、復旧まで時間を要する形になったと思われます。
再発防止策
auによる公式発表では、下記4つに対する再発防止策が提出されています。
人為的ミスに対する再発防止策
メンテナンス作業時の人為的ミス予防に関する対応は、7月22日までに再発防止策の施行が完了しています。
システムや制御方法等、色々な要素が絡みあって、広範化・長期化したものの、そもそもの作業ミスがなければ、今回の障害は発生しなかったので、この項目は非常に重要と言えます。
実施内容 | 実施時期 |
---|---|
作業手順書管理ルール・作業承認手法の見直し | 2022年7月14日実施済 |
作業リスク評価と作業抑制基準・期間の見直し | 2022年7月22日実施済 |
通信障害の大規模化に対する再発防止策
輻輳状態に起因する、異常なバックアップファイルによるVoLTE交換機の異常状態の継続、それに伴う加入者DBの輻輳・データ不一致などが今回の全国的な通信障害を招きました。
これらの再発防止策として、輻輳の早期特定・検知を出来るツールの開発、輻輳時の分散処理の設計見直しが再発防止策として提出されています。
実施内容 | 実施時期 |
---|---|
VoLTE交換機のより詳細な輻輳検知ツール開発 | 2022年7月28日実施済 |
輻輳制御の設計見直し (点検、計画策定) | 2022年8月末迄に点検完了予定 その後計画策定 |
通信障害の長期化に対する再発防止策
VoLTE交換機が異常状態を継続したことに加え、加入者DBでも輻輳が発生。
加入者DBを管理する装置であるPWGを切り離す作業を行うものの加入者DBでの同期が行えず、データを再同期作業が発生し、復旧までに更に長期化する結果となった模様。
そこで、auは、今回のような輻輳状態等、特殊なネットワーク状態での復旧作業手順の確立を再発防止策として確立しました。
実施内容 | 実施時期 |
---|---|
輻輳発生時の復旧手順の見直し | 2022年7月11日実施済 |
輻輳制御の設計見直し (点検、計画策定) VoLTE交換機の輻輳解消ツールの開発 | 2022年8月末迄に実施予定 |
障害情報の周知に関する改善策
障害発生時のリアルタイムな情報提供・周知に関する改善策も提示されています。
これに関しては、公式サイトでの発表内容が曖昧なこともあり、詳細は不明です。
当方の記憶では、今回の通信障害時も、1時間毎に障害のリアルタイムな状況や復旧作業状況が更新されていました。
ただし、公式サイトに掲載されている情報を見に行く必要があったので、そもそも通信手段がスマホしか無くWi-Fi環境も無い場合には、状況の把握手段が無かったということもあります。
以後、何かしらの方法により、auから各端末に、障害・復旧作業のリアルタイムな情報が送信されることになるのかと想定しています。
(具体的な記載が無いため、詳細は不明)
実施内容 | 実施時期 |
---|---|
お客さま目線の情報開示・適時適切な情報提供手法拡充 | 2022年7月14日一部実施済 2022年9月末迄に実施予定 |
【まとめ】今後、信頼していいのか?
auは日本を代表するキャリアであり、今後の再発防止策は万全と言えるものをしっかりと準備しているはずです。
少なからず、今回のauによる公式発表と総務省の指導文書から察するに、十分な改善が見られると素人目には感じました。
今回で「二度目の正直」
2021年10月にdocomoが起こした通信障害を受けて、実は、auは輻輳による通信障害の予防策を既に打っていました。
docomoの通信障害の教訓を受けた上で、十分対応可能とされる予防策を打ってきたにも関わらず、それでも対応出来なかった。
docomoも当時の障害発生時には、20万台のIoT端末に対して位置情報登録を要求したところから輻輳が発生しましたが、日本を代表する移動体通信事業者のdocomoが「到底耐えうるであろう」と判断した上での位置情報登録要求を行ったにもかかわらず、全国的な通信障害を招いているのです。
docomoですらも想定出来なかった輻輳
それを想定した上でのauが打った予防策
その予防策をもはるかに上回る規模の障害
この通信障害は、docomo・Softabnk・楽天モバイルも他人事ではなく、各社が足並みを揃えて対応・協調していくことは間違いないでしょう。
三度目は無いはずです。
ローミング等も検討しているようなので、こうした通信障害がまた起きたとしても、通話が一切できない。通信が一切できない。という状況は起こらないはず。
【動画】時系列 記者会見動画まとめ
障害発生後の記者会見の動画を時系列でまとめていきます。
コメントを残す