« [書評]スタバではグランデを買え! 価格と生活の経済学 (吉本佳生) | トップページ | イスラエルによるシリア空爆の対象は北朝鮮設計の原子炉だったか »

2007.10.13

首都圏改札トラブル

 昨日12日早朝、首都圏のJR、地下鉄、私鉄各線の多数駅で自動改札機の電源が入らないトラブルが発生した。始発からのトラブルだった。JRに限定すると、大宮、川崎、横浜、宇都宮など、東京近郊の約160駅だったらしい。これから都心部へ向かう通勤客が、いわば入り口で故障改札機に遭遇し、システム的には非正規に通過した。社会的な問題はむしろ、首都圏の出口のほうで発生した。一部の通勤客がシステム的に正規通過できないため、混乱をさけるために全面的に改札機を停止することになった。事件は一応、同日の午前中には収束したが、解決したわけではない。
 JRなど鉄道会社には損害が出たし、多数の通勤客も不便だったという意味で社会事件なのだが、怪我人などが出たようでもなく一過性の奇妙な事件として忘れ去れるかもしれない。私は、なぜこんな事件が発生したのか、関心を持った。現時点ではあらかた解明されているので私の愚考など意味がないのかもしれないが、少し自分の発想をなぞり、そしてその後の解明ストーリーから推測される話を備忘にまとめておきたい。
 当初私がこのニュースに接したときは、入り口の改札機の電源が入らないとのことだった。なので、単純に電源系のトラブルだろうか、であればソフトウェアの関与は少ないか、と思った。しかしこの手の情報機器はパソコン同様電源系もまたソフトウェア制御下に置かれるので、つまりはソフトウェアのバグ(あるいは設計ミス)が原因だろうと考えた。
 どのようなバグがこうした広域のエラーをもたらすのだろうか? 私の最初の推測は、すでに多数のエラーがすでに発生していて、それが昨日ある一定の量を超えてしまったのではないか、というものだった。
 その時点でネットをサーチすると昨年末の改札機バグの話”「スイカ」改札通れないトラブル・説明責任を果たすべき”(参照)がすぐに見つかった。


 12月1日午前0時ちょうどに横浜、大宮など首都圏約180駅で、スイカを使って自動改札機を通過できなくなるトラブルが発生した。トラブルが起きたのは全て日本信号製の改札機で、「スイカ定期券」「ビュースイカカード」「モバイルスイカ」をかざした際に、正規のカードを誤って拒否したという。
 対策としてコンピュータープログラムの修正作業をしたところ、同日午前5時すぎに全駅で復旧した。スイカシステムの大規模な事故はサービス開始以来初めてである

 電源断ではないが同種の事故であり、即座に日本信号製が怪しいと目星を付けた。なお、同記事は昨日の事件を予想している。

 その際のトラブル対策として、1日午前0時から終電までと始発から午前5時くらいまで自動改札を開放したらしい。そのため、その時間帯に自動改札を通った人は無料で乗れたことになるが、トラブルのあった時間帯に入ったとしても、復旧後に出た場合は、自動改札の扉が閉まり無料にならなかったはずだという。幸い多数の人が乗降しない時間帯でのトラブル発生であったから良かったものの、ラッシュ時間帯にこのようなことが発生したら、大変な混乱となったであろう。

 その大混乱が昨日発生したわけで、おそらくそのドゥームズ・デーをJRや日本信号もある程度想定したと考えていいだろう。
 実は、このエントリを書くべきだと思ったは、同じく同記事の次の指摘に同意したからだ。

JR東日本のホームページのニュースリリースには、「スイカ電子マネーをご利用できる店舗を順次拡大しており…」などというのんびりした発表はあるが、今回のトラブルについては、障害が発生したことについては報道発表しているが、原因などについては何らのコメントも掲載していない。日本信号のホームページも同様だ。マスコミも、その後口止めされたわけでもなかろうが、何も報道していない。それとももう報道価値がないと思っているのだろうか。

 昨年末時点でこの混乱について、情報が公開され、またマスコミも報道すべきであっただろうと思う。
 だが、実際に大混乱が起きてみると、報道したからといってなんの益もないではないかという考えもあるだろうか。そこが難しいところで、今回の大混乱は、我々の社会の深層のある病理を暗示しているのだろうと私は思う。それゆえに、この問題は、やはり考慮すべきだろう。
 さて、昨日の私の愚考の経緯に戻るのだが、私が解けなかったのは、なぜ電源系なのか?ということだった。ちょうどその前日の午後に関東一円で広域の電圧降下が起きた。”関東一円で瞬時の電圧低下、午後1時半に茨城から波及”(参照)。またその状況はたまたま私がtwitterで各地のパソコンユーザーからの異常のメッセージを受信してたので、気になっていた。電圧降下が改札機に強い影響を与えて暴走した機械もあったのではないか、ととりあえず考えてみた。
 結論から言えば、私の推測は間違いだった。問題はそうした分散した小悪要素が一定の閾値を越えたというのではなく、もっと単純に、一元システムの一元性が関係していた。これらの機器はネットワークで集中管理されており、中心から「故障せよ」に等しいメッセージが送り込まれたようなことになった。もちろん、「故障せよ」といったメッセージをセンターシステムが送ったわけはない。正常メッセージなのに、バグのある端末の改札機が誤解して異常動作を惹起したにすぎない。つまり、端末の改札機のバグが原因なのだが、この事態は一元管理でなければ起こりえないという点も重要だろう。
 具体的に現時点に近い報道から仕組みをみていこう。
 産経新聞”パスモ、スイカ相互利用システムにトラブル?”(参照)より。パスモとスイカの相互利用に関して、

 相互利用にあたっては、それぞれの改札機のデータ許容量には限界があるため、改札機はホストシステムである「相互利用センター」との間でデータ交信を実施している。毎日深夜に、改札機の端末のデータと相互利用センターとのデータを一致させることで、改札機の電源が入る仕組みになっている。
 同社によるとトラブルが発生したのは12日午前3時ごろ。同社によると、「改札機のデータを管理する『相互利用センター』のデータと、改札機の端末のデータが一致しなかっために改札機の電源が入らず、改札機が作動しなかった」という。しかし、「データが一致しなかった理由は分かっていない」と説明している。原因解明には12日いっぱいかかる見通し。

 重要な点をまとめると、まず、電源の制御はネットワークで一元管理されていることがわかる。次に、このバグは昨年末のバグと同種類のものであることは色濃く推測されることだ。
 また毎日新聞”首都圏・自動改札機トラブル:プログラムミス原因、260万人に影響”(参照)より。

 トラブルがあった改札機は、16の鉄道事業者が使うICカード対応の全改札機の約4割に当たる計4378台に上った。
 自動改札機は3社が製造しているが、トラブルが起きたのは日本信号製のみだった。
 同社などによると、改札機には電源投入時、ICカード相互利用センターから▽不正使用▽期限切れ--など定期券やクレジットカードに関するデータが送信される。同社で調べたところ、改札機がクレジットカードに関する特定の長さのデータを受信すると、電源が入らないプログラムミスがあった。

 はっきりとわかりづらいのだが、バグ付き改札機は、センターからの正常メッセージを、「電源断せよ」と理解して動作したということなのだろう。率直に言えば、そんな電源断の機能が遠隔操作で可能なシステムとして設計されていたのかというのが、やや驚きだ。
 あと事件の顛末だが現状正常に動いているとはいえ、バグはまったく修正されていない。読売新聞”自動改札きょうは順調、ソフト未改修のまま”(参照)より。

 日本信号はこの日、始発前に改札機の作動テストを繰り返し、前日に起きたトラブルが再発しないことを確認できたとして、始発から使用開始に踏み切った。
 しかし、新しいソフトウエアができるまでは、問題のある現在のソフトウエアをそのまま使用し続けるため、同社は今後、毎朝、始発前に作動テストをして安全を確認するとしている。

 このままこのシステムが継続される可能性もありそうだ。IT Pro”【続々報】首都圏の自動改札障害は接続認証のエラー、「昨晩は保守をしていない」 ”(参照)より。

 日本信号によると「昨晩は自動改札機に関係するメンテナンス作業をしていない」(広報担当)という。早朝の復旧作業は、ネットワークを切断した状態で自動改札機を再起動することで実施している。

 メンテナンス作業によってバグ付きシステムを補助しつつ稼働させるのが、このシステムの正常稼働ということなのかもしれない。
 以下、そうした仕組みと対応の理解を踏まえての愚考。
 端末・改札機に不正があった場合、遠隔のセンターから電源断にするという設計は何を意味しているのだろうか気になる。そういう設計の指針なり哲学なりが私にはわからない。私の素人考えでは、不正といっても、単発事件としては巨額なカネの問題ではないのだから、異常を各駅に通知するだけで十分ではないか。むしろ、そこから不正をトレース(追求)すべきなのではないか。
 そう考えてみて、気になるのは、各駅のそうしたマネージメント的な対応という負荷をかけないセントラルなシステムであれ、というのがこのシステムの設計思想なのではなかったかということだ。なにか冷やりとした人間不信を感じさせられる。だが、今回の大混乱の顛末を見ると、結局のところ、各駅のマネージメント対応となっている。
cover
ヒトデはクモよりなぜ強い
 今回の大混乱を振り返って、先日読んだ「ヒトデはクモよりなぜ強い 21世紀はリーダーなき組織が勝つ」(参照)が気になっている。同書は組織のマネージメント論として描かれているのだが、もっと単純にシステム論として読むこともできるだろう。
この書籍では、センターを持ち、上位から下位を指令するトップダウンの構造の組織を「クモ型組織」と呼び、これに対して、権限が分散され、各部が知的に独立的に動作する組織を「ヒトデ型組織」と呼んでいる。
 システム論として見た場合、クモ型システムとヒトデ型システムは完全に対立するものではないだろう。クモ型システムの場合はセンターまたはセンターと端末交信にエラーがあれば、システム全体が誤動作してしまう。しかし、ヒトデ型システムであれば、システムの誤動作は局限できる。
 今回のケースに関連していえば、大混乱再発の可能性のシステムは、ヒトデ型システムをもつべきだろう。さらに、そうしたヒトデ型システムの要請は、今回のような改札システムだけには限定されないはずだ。

追記
コメント欄でエンジニア的な視点からいくつか有益なご指摘をいただいた。参照していただきたい。エントリでは「電源の一元管理」としたが、「管理」という表現は拙速だったかと思う。
 ume-yさんから教えていただたい記事は技術的により詳しいので参照していただきたい。
 ”260万人の朝の足を直撃 プログラムに潜んだ“魔物””(参照)より。

 調べたところ、ネガデータに「ある長さ、ある件数」といった条件が重なった時、データが読み込めなくなるプログラム不具合が判定部側にあることが判明。このため、判定部はエラーを返しながらネガデータ読み込みのリトライをひたすら繰り返す状態に陥り、起動処理が止まった。

|

« [書評]スタバではグランデを買え! 価格と生活の経済学 (吉本佳生) | トップページ | イスラエルによるシリア空爆の対象は北朝鮮設計の原子炉だったか »

「時事」カテゴリの記事

コメント

現場から2点。半分素人みたいなプログラマがあーだこーだテストも個々人の能力次第みたいな感じで作ってるので・・ちょっと運が悪ければこれくらいのトラブルは起きます。。現場の人間はみんなわかってます。。まー日本の業務系のシステムってどれでもだいたいはそのレベルですが。あと、システムの構造ですが、クモ型システムって感じではなくて、ただ、合計とかを持つ部分が必要ってことなだけです。参考になれば幸いです。

投稿: PG | 2007.10.13 17:14

ニュースソースを失念してしまって申し訳ないのですが、そこには起動時に読み込むデータに関して、改札機がある特定のデータの組み合わせを異常と判断し

データ再送要求→データ読み込み→エラー検知→データ再送要求→…

のように永久ループに入ると説明されていました。データにダミーを混ぜたり、順番を変えると正常に読み込まれることも判明したそうです。

投稿: mmt | 2007.10.13 17:44

産経新聞の記事は、起動シーケンスの一部が正常に完了せず、結果として起動しないと書いてあるように読めました。電源の一元管理を表したものではないと思います。

ITmediaに少し詳しい記事がありました。
http://www.itmedia.co.jp/news/articles/0710/12/news117.html
ネットワーク経由のデータ取得にエラーがあり、リトライで無限ループに陥ったようです。

IT Proの記事は、よくある「メンテナンス作業をしたことが原因で発生したトラブル」ではない、ということではないでしょうか。
「スタンドアロンモード」みたいなもので、ネットワークアクセスを行わないことで、エラーを回避したようですね。

投稿: ume-y | 2007.10.13 17:55

こういうトラブルは相互乗り入れや使える非接触媒体の発展など、システムの複雑化が終息しない限り絶対なくならないわけで、対策としてはどこの駅でも複数のベンダーから自動改札機を調達する、くらいしかないのではないでしょうかね。

ただ、ネガティブデータを読み込む意味を考えれば、システムが止まるよりネガティブデータを受け取りそこなう方がまだダメージ少ないのだから、リトライに閾値設けて、それ越えたらスタンドアロンモードで起動する、とか考えなかったんでしょうか。

投稿: ■□ Neon / himorogi □■ | 2007.10.14 06:10

SaaSという単一CPU神の時代と同じ流れの話と受け取りました。

かなり最近まで庶民にとって中央の為政者は神か宇宙人のような想像上の存在に近い凄いけど生活と無関係なものだったそうで。つまり失政があっても民草にはそんなことも分からず雨乞いの儀式で神の怒りを納めてもらうようなそんなチグハグさ。
100年後に起こる今回のような事件では駅員が改札様が怒りを納めていただくために舞を奉納するのかもしれません。ああ、効率化で駅員なんか居ないから乗客がやらないといかんですね。
厳かにタッチセンサーに触れたら一歩前に出て上体をそらして片足を後ろに伸ばし、両手を広げてにこやかに改札様にお許しを願うのです。数時間やると改札様のお怒りが収まって構内に入場できるようになります。

私は当分Gmailはサブに、ローカルのOutlookをメインで使います。

投稿: papepo | 2007.10.14 14:28

@niftyトップページ「旬の話題ブログ」コーナーにて、
10/14に本ページの記事を紹介させて頂きました。
紹介記事については、「旬の話題ブログ」バックナンバーで
半年間、ご覧いただけます。
今後も旬な話題の記事を楽しみにしておりますので、
引き続き@niftyをご愛顧の程、よろしくお願い致します。
ありがとうございました。

        @nifty「旬の話題ブログ」スタッフ

投稿: 「旬の話題ブログ」スタッフ | 2007.10.15 14:40

 効率化が非効率を産んだ副産物だと感じています。
従前はすべての機械装置を一気に置換せず徐々に切り替えてリスク回避を図っていたのではないでしょうか。新型改札装置の採用区間や利用できる駅も限定して。まず20%、そして、50%と適用して行けば、途中でプログラムのバグ等の不具合があっても利用客に影響は少ないはずです。駅員の対応も随分と楽になったはずです。切り替えた改札だけ閉鎖するだけですから。その分は、あとは人海戦術で駅員が頑張れば通常の乗降客の流量を確保できたかもしれません。それに装置のコストダウンの影響が見え隠れしています。ハードで切り替えスイッチも設けて、従来のソフトに戻せるようにすれば通常通りに機械が利用できる客も多かったはずです。あるいは、動作不良が起きたらソフトスイッチで補足プログラムだけスルーする、基板を差し替えて元に戻すってのもあり得る方法だったと思います。また日本信号は最近求人をしていました。技術工数が不足していたのかもしれません。そして、社内での動作確認が不十分だったのかもと。関係者ではありませんが外部者から見ているとナントお粗末な出来事って感じています。
 今までのサービスでは正常動作していた実績があるんですから、対応の方法はいくつもはずで残念です。

投稿: denden | 2007.10.15 15:47

人を大量に捌く、処理するとき、システムを超える決定的な一点が存在してるように思うが、それが何なのかはわからない。それが見えるときもあるが、言葉に出来ず固まってしまう。システムに中心があるかどうか、という観点で思うのは、私の考えでは、中心はある、ただ神出鬼没だ、という感じかな。神か鬼か、毒か薬か。人類にとって隠された普遍的テーマですね。

投稿: itf | 2007.10.15 18:14

コメントを書く



(ウェブ上には掲載しません)


コメントは記事投稿者が公開するまで表示されません。



トラックバック


この記事へのトラックバック一覧です: 首都圏改札トラブル:

» [駄文]改札機で電源が入らなかった話 [O-Lab +Ossan Laboratory+]
極東ブログ: 首都圏改札トラブル http://finalvent.cocolog-nifty.com/fareastblog/2007/10/post_218b.html はっきりとわかりづらいのだが、 バグ付き改札機は、センターからの正常メッセージを、 「電源断せよ」と理解して動作したということなのだろう。 率直に言えば、そ... [続きを読む]

受信: 2007.10.13 20:38

« [書評]スタバではグランデを買え! 価格と生活の経済学 (吉本佳生) | トップページ | イスラエルによるシリア空爆の対象は北朝鮮設計の原子炉だったか »