私はこれまでシステムエンジニアとして設計、構築を携わることが多かったですが、運用をしていて先日、スイッチの障害があり、システム的なリブートが走りました。

 
結果、数秒程度、通信断が発生したようなのですが、メーカーに問い合わせたところ、原因不明で、原因の一つに「宇宙線」というキーワードがありました。


同僚に聞いたところ、この宇宙線はたまに使われるそうなんですが、宇宙線って、、、


とネットで検索をしていたら、あのCiscoもこのキーワードを使っているとのこと。その宇宙線が原因とされた障害がこちら。

ANAシステム障害の原因判明、シスコ製スイッチの「世界初のバグ」でDBサーバーがダウン


全日本空輸(ANA)は2016年3月30日、3月22日に発生した国内線システムの不具合について、原因や再発防止策などを公表した。国内線システムの4台のデータベース(DB)サーバーをつなぐ米シスコシステムズ製イーサネットスイッチの故障が原因だったというもので、これはニュースにもなったので、記憶に新しいですね。

ANAによれば、3月22日午前3時44分にDBサーバーの1台が停止した。その後2台が停止し、約4時間40分後の午前8時22分に最後の1台も停止。DBサーバーが停止した理由は「正常に機能が働いた」(ANA広報)ため。4台のDBサーバーはデータを同期しており、同期処理が異常終了した場合に自動停止する機能を備えていた。

同期処理が失敗した原因は、4台をつなぐスイッチの不具合。具体的には、スイッチが故障状態であるにもかからず、故障を知らせる「故障シグナル」を発信しなかった。国内線システムは故障シグナルを検知するとスイッチを予備機に切り替えるが、今回はその機能そのものを作動できなかった。
 

故障を発見できなければ、当然、切り替わらないので問題になったそうですが、これが宇宙線が原因とされたそうです。


結局、よくわからない理由になったら宇宙線を使えばいいというのは止めてもらいたいですね。ソフトウェアなので、予期しない動作やエラーは完全にゼロにするのは難しいとは思いますが。


これ、Cisco以外のメーカーでも出てくるワードらしいので、そもそも、宇宙線を通さない作りにすればいいのではと思うのですが、どうなんでしょうかね。


ちなみに、宇宙船とは?

宇宙線 wiki

宇宙線(うちゅうせん、英: Cosmic ray)は、宇宙空間を飛び交う高エネルギーの放射線のことである。主な成分は陽子であり、アルファ粒子、リチウム、ベリリウム、ホウ素、鉄などの原子核が含まれている。地球にも常時飛来している。


地球にも常時飛来していて影響を受けるんだったら、もっと障害が起きてもいい気がするんですけどね。。。