障害・不具合情報
2009/10/14 21:10
小説家になろうをいつもご利用いただきましてありがとうございます。
2009年10月8日より2009年10月12日午後2時ごろにかけ計10回(合計約6時間)にわたり接続障害が発生し、ご利用の皆様、特に作者の皆様には多大なご迷惑をおかけ致しましたこと、深くお詫び申し上げます。現在、原因となっていた部分を修正し、復旧しております。
原因の詳細を報告いたします。
▼障害発生時刻
8日:Aサーバ:20時ごろ~約1時間後にOS再起動により復旧
【9日14時ごろ:サーバ増設作業完了、Bサーバ追加】
9日:Aサーバ:19時ごろ~約20分後にOS再起動により復旧
10日:Aサーバ:6時30分ごろ~約3時間後にOS再起動により復旧
10日:Bサーバ:11時30分ごろ~約5分後にOS再起動により復旧
11日:Aサーバ:9時ごろ:約15分後にOS再起動により復旧
11日:Aサーバ:11時ごろ:約5分後にOS再起動により復旧
11日:Aサーバ11時50分ごろ:約30分後にOS再起動により復旧
11日:Bサーバ12時6分ごろ:約20分後Apacheのみの再起動により復旧
12日:Aサーバ1時ごろ:約10分後OSの再起動により復旧
12日:Bサーバ12時ごろ:約10分後OSの再起動により復旧
12日:13時ごろ・・・原因判明・・・カーネルの異なる別インスタンスの起動&切替(この間、約15秒のサービス停止)
▼原因
Linuxカーネルのバグによってプロセスがkill(強制終了)できなくなる。
原因は当該サーバで使っていましたLinuxカーネル(Kernel-2.6.24-6-xen)の不具合でした。カーネルのバグのため、Apacheがハングアップ、サービス提供や強制終了ができなくなってしまったものと考えております。
▼調査結果
・回線・・・異常なし
・PHP・・・サービス停止に影響する異常なし
・プログラム・・・サービス停止に影響する異常なし
・MySQL・・・サービス停止に影響する異常なし
・Linux・・・・カーネルにバグあり
▼解決
AmazonEC2のインスタンスをUbuntu8.10に変更し、現在はバグ修正済みのカーネルを利用しています。また、全サーバでKernel-2.6.24-6-xenの利用を停止、別バージョンを利用しております。Linuxは比較的安定しており、あえてUbuntu8.1.0と最新のものではなくUbuntu8.0.4という[長期サポート版]を使っているという安心感がLinuxそのものにバグはないだろうという先入観を生みました。また、AmazonEC2の場合、専用サーバと違ってカーネルのバージョンアップができなかったことや、同じロケーションでmediumインスタンスが満員(容量限界)のため、別インスタンスを起動してテストできなかった不運が重なりました。
原因究明に時間がかかってしまいましたこと、深くお詫び申し上げます。
申し訳ありませんでした。
投稿者:ume
障害・不具合情報
2009/10/11 12:32
ご迷惑をおかけしましたこと、お詫びします。現在は解決しています。
小説家になろうをいつもご利用頂きましてありがとうございます。システム担当のウメです。
現在、小説家になろうのウェブサーバが原因不明のサービス停止を繰り返しており、その都度、手動で再起動させております。
ご利用の皆様には多大なご迷惑をおかけしていますこと、深くお詫び申し上げます。
▼詳細
▽ウェブサーバ障害発生時刻
8日:Aサーバ:20時ごろ~約1時間後にOS再起動により復旧
【9日14時ごろ:サーバ増設作業完了、Bサーバ追加】
9日:Aサーバ:19時ごろ~約20分後にOS再起動により復旧
10日:Aサーバ:6時30分ごろ~約3時間後にOS再起動により復旧
10日:Bサーバ:11時30分ごろ~約5分後にOS再起動により復旧
11日:Aサーバ:9時ごろ:約15分後にOS再起動により復旧
11日:Aサーバ:11時ごろ:約5分後にOS再起動により復旧
11日:Aサーバ11時50分ごろ:約30分後にOS再起動により復旧
11日:Bサーバ12時6分ごろ:約20分後Apacheのみの再起動により復旧
▽確認済
Apacheのプロセスが暴走、同時接続上限を超えてしまい強制終了や自動再起動ができない状態に陥る。
現在、AとBの2台のウェブサーバが稼動しており、利用者の環境によってどちらか1台のウェブサーバに接続されます。サービス停止中のサーバに接続された場合、小説家になろうが表示できない不具合が発生しております。いずれもピーク時間帯のアクセス障害ではなく(ただし、8日の時点はサーバが1台しかなかったため、アクセス集中の可能性もあり)、原因が不明で困惑しております。
このほかにもPDF小説ネットを表示しているCサーバがありますが、今のところ、こちらのCサーバの異常は確認しておりません。
本来、Apacheというウェブサーバはこのようなサービス停止状態を引き起こすことは稀で、1000以上の同時接続があっても、数秒~数分後には自動復旧することを確認しています。現に過去5年間、Apacheのハングアップによるサービス停止は一部のあきらかな設定ミスを除き経験しておりません。Apacheの設定/コンパイルミス、サーバへの攻撃、PHPアクセラレータの暴走、PHP本体の暴走、小説家になろうプログラムの不具合などなど、原因は一つとは限らないため、すでに負荷検査を完了した部分も含めありとあらゆる可能性を再調査、原因究明に全力を尽くしております。また、強制終了できない件について、OSの設定についても調査しております。
このうち、ログにはサーバへの攻撃は記録されていませんでした。
原因が判明し改善できるまでご迷惑をおかけしますが、解決まで今しばらくお待ちください。
投稿者:ume
障害・不具合情報
2009/10/06 22:42
利用者増加に伴いセッションサーバおよびデータベースサーバが過負荷状態となり、すべてのウェブサーバが正常に動作しない状態となっています。
ご利用の皆様には多大なご迷惑をおかけしていますことお詫びします。
現在、セッションサーバの分散を検討しておりますが、当初の想定よりもかなり早い段階での過負荷であり、セッションサーバ調達から増設までにかなりの時間(数日)を要すものと考えております。その間、夜間を中心に小説家になろうに大変接続しにくい状況が発生するものと考えております。
ご迷惑をおかけいたしますこと深くお詫び申し上げます。
▽23時55分
セッションサーバとは関係ありませんが、国内サーバの準備が完了しましたので、画像やCSS、JavaScriptを配信する静的サーバをAmazonEC2(米国東海岸)から通信速度の速い日本国内サーバ(旧サーバ)に移動しました。
投稿者:ume
障害・不具合情報
2009/10/06 20:03
現在小説家になろうへの接続が不安定な状態が続いております。
接続の調整とサーバの増設を行っておりますが追いつかない状態です。
復旧に尽力しておりますが、ユーザの皆様には
ご不便とご迷惑をおかけしておりますこと、お詫び申し上げます。
投稿者:hiro
障害・不具合情報
2009/10/05 20:30
2009年10月5日20:00から約15分の間、小説家になろうに接続できない状態となっておりました。
現在は復旧しております。
ユーザの方にはご不便、ご迷惑をおかけいたしましたこと、お詫び申し上げます。
■21:30 追記
再度接続障害が発生し、サイトに繋がりにくい状態となっております。
原因は現在調査しております。
ご迷惑をおかけし、大変申し訳ございません。
■23:45追記
接続障害の原因についてですが、WEBサーバへの急激なアクセス増加が原因でした。
現在、3台のWEBサーバに分散しておりますが、依然、改善しない状態です。
引き続き、サーバ増強作業に努めます。ご迷惑をおかけしていますこと、お詫びします。
■10/6 12:25追記
さらにWEBサーバ1台を追加し、現在、4台のWEBサーバに分散しております。引き続き、サーバの負荷を調査しております。
投稿者:hiro