2009-10-14

先日の接続障害に関するお詫び

小説家になろうをいつもご利用いただきましてありがとうございます。
2009年10月8日より2009年10月12日午後2時ごろにかけ計10回(合計約6時間)にわたり接続障害が発生し、ご利用の皆様、特に作者の皆様には多大なご迷惑をおかけ致しましたこと、深くお詫び申し上げます。現在、原因となっていた部分を修正し、復旧しております。

原因の詳細を報告いたします。


▼障害発生時刻
8日:Aサーバ:20時ごろ~約1時間後にOS再起動により復旧
 【9日14時ごろ:サーバ増設作業完了、Bサーバ追加】
9日:Aサーバ:19時ごろ~約20分後にOS再起動により復旧
10日:Aサーバ:6時30分ごろ~約3時間後にOS再起動により復旧
10日:Bサーバ:11時30分ごろ~約5分後にOS再起動により復旧
11日:Aサーバ:9時ごろ:約15分後にOS再起動により復旧
11日:Aサーバ:11時ごろ:約5分後にOS再起動により復旧
11日:Aサーバ11時50分ごろ:約30分後にOS再起動により復旧
11日:Bサーバ12時6分ごろ:約20分後Apacheのみの再起動により復旧
12日:Aサーバ1時ごろ:約10分後OSの再起動により復旧
12日:Bサーバ12時ごろ:約10分後OSの再起動により復旧
12日:13時ごろ・・・原因判明・・・カーネルの異なる別インスタンスの起動&切替(この間、約15秒のサービス停止)


▼原因
Linuxカーネルのバグによってプロセスがkill(強制終了)できなくなる。
原因は当該サーバで使っていましたLinuxカーネル(Kernel-2.6.24-6-xen)の不具合でした。カーネルのバグのため、Apacheがハングアップ、サービス提供や強制終了ができなくなってしまったものと考えております。


▼調査結果
・回線・・・異常なし
・PHP・・・サービス停止に影響する異常なし
・プログラム・・・サービス停止に影響する異常なし
・MySQL・・・サービス停止に影響する異常なし
・Linux・・・・カーネルにバグあり


▼解決
AmazonEC2のインスタンスをUbuntu8.10に変更し、現在はバグ修正済みのカーネルを利用しています。また、全サーバでKernel-2.6.24-6-xenの利用を停止、別バージョンを利用しております。Linuxは比較的安定しており、あえてUbuntu8.1.0と最新のものではなくUbuntu8.0.4という[長期サポート版]を使っているという安心感がLinuxそのものにバグはないだろうという先入観を生みました。また、AmazonEC2の場合、専用サーバと違ってカーネルのバージョンアップができなかったことや、同じロケーションでmediumインスタンスが満員(容量限界)のため、別インスタンスを起動してテストできなかった不運が重なりました。
原因究明に時間がかかってしまいましたこと、深くお詫び申し上げます。

申し訳ありませんでした。
category障害・不具合情報  time21:10  authorume