日本取引所グループ(JPX、清田瞭・取締役兼代表執行役グループCEO)は10月19日、10月1日に東京証券取引所で発生した富士通製株式売買システム「arrowhead」の障害について、原因と経緯、今後の対策について明らかにした。

●過去最悪の障害


 10月1日7時4分、arrowheadにおける運用系ネットワークの共有ディスク装置(NAS)1号機にメモリ故障が発生。本来、フェイルオーバーによって2号機へ自動的に切り替わるはずが、機能しなかったことで相場情報を正常に配信できなくなった。これを受けて東京証券取引所は全銘柄の売買を一時停止し、NAS2号機へと手動で切り替えた。切り替えは成功し各種機能は正常に動作する状態になったものの、売買再開にはシステムの再起動が必要になると判断。再起動は関係者への影響が大きく、顧客対応や円滑な売買の実施が困難だとして、11時45分に終日の売買停止を決定した。これまで2005年11月に、4時間30分にわたり全銘柄の取引を停止するケースはあったものの、終日にわたる取引停止は今回が初となった。

●NASの製品マニュアルに不備


 JPXでは、arrowheadの障害による影響が終日売買停止まで拡大したことの主な原因として、NAS2号機への自動切り替えが動作しなかったことと、当日中に取引再開するための対策をシステム面・運用面で十分に整備できていなかったことが問題だったとしている。
 まず自動切り替えの動作不良については、製品仕様のマニュアル不備が原因だという。もともとJPXは、NASの故障時でも30秒以内に切り替えて、業務を継続できることをarrowheadのシステム要件としていた。19年11月から稼働している現行のarrowheadにおいても、富士通の製品マニュアルを基に自動切り替えが動作するよう設定値を定めていたという。
 しかし、今回の障害後の調査で、この設定値ではメモリ障害時に自動的に切り替わらない製品仕様であることが判明。マニュアルと実際の製品仕様に齟齬が生じていたことになる。この設定値は10年1月に稼働した初代システムの時点では自動切り替えが動作していた。システムの代替わり後も実績やマニュアルに基づいて同じ値にしていたものの、実際にはマニュアルに記載された設定では自動切り替えが動作しない製品仕様になっていたわけだ。
 通常、富士通では初期設定値でマニュアル通りに動作することをテストしてから出荷しているが、今回、arrowheadに設定した値は初期設定値ではなかったことからテストは実施されていなかったという。JPXでもNASの切り替えテストは行っていたものの、切り替え後の業務継続の確認に重きを置いていたことから、メモリの故障ではなくネットワークの故障を疑似的に発生させる形で切り替えテストを行っていたため、齟齬を確認できなかった。
 マニュアルと製品仕様の齟齬が発生した要因として富士通は、NASのオペレーティングシステムがアップデートされた際に製品仕様が変更されており、その内容をマニュアルへと反映していなかったことだと説明している。
 なお、NAS1号機の故障についてはメモリカードの部品故障だといい、故障メモリを搭載したマザーボードは当日中に交換済み。富士通とOEMベンダーの故障診断によればロット障害ではなく、偶発的な故障だったという。

●再開するためのルールを整備していなかった


 今回の障害はNASの自動切り替えが動作しなかったことに原因があるが、その後の対応でNAS2号機へ手動で切り替えることでシステムは正常に動作するようになっている。それにもかかわらず終日の売買停止を決断するに至ったのは、再開するための対策が不十分だったからだとしている。
 9時からの売買停止の際、通常は社内の売買管理画面から操作する必要があったが、その際に同機能がNASにアクセスする処理を行っていたことから別の停止手段としてネットワークの切断を選択。しかし、arrowhead内部ではネットワーク切断までに受けていた処理が動き続けており、売買再開に向けた手順や確認項目が増えてしまった。
 JPXは「不測の事態に備え、複数種類の売買停止手段は用意していましたが、NASが使えない場合においても確実に売買を停止する手段を講じていなかったことが問題と認識しています」という。
 また、システムの再起動後に売買を再開することも可能だったものの、取引関係者との合意がない中、テストを実施せずに不安定な対応を行うのは適切ではないと判断。システム障害発生時、売買を再開するためのルールを整備していなかったことも問題だったとしている。

●再発防止策と検討協議会の設置


 これまでJPXでは「Never Stop」をスローガンに掲げ、信頼性を高める施策を中心に取り組み、システムを運用してきた。しかし、今回の障害を踏まえ、今後は信頼性の向上だけでなく、障害からの回復能力(レジリエンス)にも焦点を当てて再発防止に努めていく。
 今回の原因となったNAS切り替え設定値の修正と総点検、確実に切り替える手段の用意などシステム面での対応を行いつつ、売買できないケースの確認やその際の指示・手順といった運用面を整備していく。
 また、10月19日には「再発防止策検討協議会」を設置。証券会社や投資家、システムベンダーなどの市場関係者を集め、海外での実務動向を踏まえた投資家目線でのシステム障害対応やルール整備の在り方を検討していく。(銭 君毅)