2009-10-11

[解決済]WEBサーバの突然停止に関して

ご迷惑をおかけしましたこと、お詫びします。現在は解決しています。

小説家になろうをいつもご利用頂きましてありがとうございます。システム担当のウメです。
現在、小説家になろうのウェブサーバが原因不明のサービス停止を繰り返しており、その都度、手動で再起動させております。
ご利用の皆様には多大なご迷惑をおかけしていますこと、深くお詫び申し上げます。



▼詳細
▽ウェブサーバ障害発生時刻
8日:Aサーバ:20時ごろ~約1時間後にOS再起動により復旧
 【9日14時ごろ:サーバ増設作業完了、Bサーバ追加】
9日:Aサーバ:19時ごろ~約20分後にOS再起動により復旧
10日:Aサーバ:6時30分ごろ~約3時間後にOS再起動により復旧
10日:Bサーバ:11時30分ごろ~約5分後にOS再起動により復旧
11日:Aサーバ:9時ごろ:約15分後にOS再起動により復旧
11日:Aサーバ:11時ごろ:約5分後にOS再起動により復旧
11日:Aサーバ11時50分ごろ:約30分後にOS再起動により復旧
11日:Bサーバ12時6分ごろ:約20分後Apacheのみの再起動により復旧

▽確認済
Apacheのプロセスが暴走、同時接続上限を超えてしまい強制終了や自動再起動ができない状態に陥る。
現在、AとBの2台のウェブサーバが稼動しており、利用者の環境によってどちらか1台のウェブサーバに接続されます。サービス停止中のサーバに接続された場合、小説家になろうが表示できない不具合が発生しております。いずれもピーク時間帯のアクセス障害ではなく(ただし、8日の時点はサーバが1台しかなかったため、アクセス集中の可能性もあり)、原因が不明で困惑しております。


このほかにもPDF小説ネットを表示しているCサーバがありますが、今のところ、こちらのCサーバの異常は確認しておりません。

本来、Apacheというウェブサーバはこのようなサービス停止状態を引き起こすことは稀で、1000以上の同時接続があっても、数秒~数分後には自動復旧することを確認しています。現に過去5年間、Apacheのハングアップによるサービス停止は一部のあきらかな設定ミスを除き経験しておりません。Apacheの設定/コンパイルミス、サーバへの攻撃、PHPアクセラレータの暴走、PHP本体の暴走、小説家になろうプログラムの不具合などなど、原因は一つとは限らないため、すでに負荷検査を完了した部分も含めありとあらゆる可能性を再調査、原因究明に全力を尽くしております。また、強制終了できない件について、OSの設定についても調査しております。


このうち、ログにはサーバへの攻撃は記録されていませんでした。
原因が判明し改善できるまでご迷惑をおかけしますが、解決まで今しばらくお待ちください。
category障害・不具合情報  time12:32  authorume