2009-10-14

先日の接続障害に関するお詫び

小説家になろうをいつもご利用いただきましてありがとうございます。
2009年10月8日より2009年10月12日午後2時ごろにかけ計10回(合計約6時間)にわたり接続障害が発生し、ご利用の皆様、特に作者の皆様には多大なご迷惑をおかけ致しましたこと、深くお詫び申し上げます。現在、原因となっていた部分を修正し、復旧しております。

原因の詳細を報告いたします。


▼障害発生時刻
8日:Aサーバ:20時ごろ~約1時間後にOS再起動により復旧
 【9日14時ごろ:サーバ増設作業完了、Bサーバ追加】
9日:Aサーバ:19時ごろ~約20分後にOS再起動により復旧
10日:Aサーバ:6時30分ごろ~約3時間後にOS再起動により復旧
10日:Bサーバ:11時30分ごろ~約5分後にOS再起動により復旧
11日:Aサーバ:9時ごろ:約15分後にOS再起動により復旧
11日:Aサーバ:11時ごろ:約5分後にOS再起動により復旧
11日:Aサーバ11時50分ごろ:約30分後にOS再起動により復旧
11日:Bサーバ12時6分ごろ:約20分後Apacheのみの再起動により復旧
12日:Aサーバ1時ごろ:約10分後OSの再起動により復旧
12日:Bサーバ12時ごろ:約10分後OSの再起動により復旧
12日:13時ごろ・・・原因判明・・・カーネルの異なる別インスタンスの起動&切替(この間、約15秒のサービス停止)


▼原因
Linuxカーネルのバグによってプロセスがkill(強制終了)できなくなる。
原因は当該サーバで使っていましたLinuxカーネル(Kernel-2.6.24-6-xen)の不具合でした。カーネルのバグのため、Apacheがハングアップ、サービス提供や強制終了ができなくなってしまったものと考えております。


▼調査結果
・回線・・・異常なし
・PHP・・・サービス停止に影響する異常なし
・プログラム・・・サービス停止に影響する異常なし
・MySQL・・・サービス停止に影響する異常なし
・Linux・・・・カーネルにバグあり


▼解決
AmazonEC2のインスタンスをUbuntu8.10に変更し、現在はバグ修正済みのカーネルを利用しています。また、全サーバでKernel-2.6.24-6-xenの利用を停止、別バージョンを利用しております。Linuxは比較的安定しており、あえてUbuntu8.1.0と最新のものではなくUbuntu8.0.4という[長期サポート版]を使っているという安心感がLinuxそのものにバグはないだろうという先入観を生みました。また、AmazonEC2の場合、専用サーバと違ってカーネルのバージョンアップができなかったことや、同じロケーションでmediumインスタンスが満員(容量限界)のため、別インスタンスを起動してテストできなかった不運が重なりました。
原因究明に時間がかかってしまいましたこと、深くお詫び申し上げます。

申し訳ありませんでした。
投稿者: ume  linkLink 

2009-10-11

[解決済]WEBサーバの突然停止に関して

ご迷惑をおかけしましたこと、お詫びします。現在は解決しています。

小説家になろうをいつもご利用頂きましてありがとうございます。システム担当のウメです。
現在、小説家になろうのウェブサーバが原因不明のサービス停止を繰り返しており、その都度、手動で再起動させております。
ご利用の皆様には多大なご迷惑をおかけしていますこと、深くお詫び申し上げます。



▼詳細
▽ウェブサーバ障害発生時刻
8日:Aサーバ:20時ごろ~約1時間後にOS再起動により復旧
 【9日14時ごろ:サーバ増設作業完了、Bサーバ追加】
9日:Aサーバ:19時ごろ~約20分後にOS再起動により復旧
10日:Aサーバ:6時30分ごろ~約3時間後にOS再起動により復旧
10日:Bサーバ:11時30分ごろ~約5分後にOS再起動により復旧
11日:Aサーバ:9時ごろ:約15分後にOS再起動により復旧
11日:Aサーバ:11時ごろ:約5分後にOS再起動により復旧
11日:Aサーバ11時50分ごろ:約30分後にOS再起動により復旧
11日:Bサーバ12時6分ごろ:約20分後Apacheのみの再起動により復旧

▽確認済
Apacheのプロセスが暴走、同時接続上限を超えてしまい強制終了や自動再起動ができない状態に陥る。
現在、AとBの2台のウェブサーバが稼動しており、利用者の環境によってどちらか1台のウェブサーバに接続されます。サービス停止中のサーバに接続された場合、小説家になろうが表示できない不具合が発生しております。いずれもピーク時間帯のアクセス障害ではなく(ただし、8日の時点はサーバが1台しかなかったため、アクセス集中の可能性もあり)、原因が不明で困惑しております。


このほかにもPDF小説ネットを表示しているCサーバがありますが、今のところ、こちらのCサーバの異常は確認しておりません。

本来、Apacheというウェブサーバはこのようなサービス停止状態を引き起こすことは稀で、1000以上の同時接続があっても、数秒~数分後には自動復旧することを確認しています。現に過去5年間、Apacheのハングアップによるサービス停止は一部のあきらかな設定ミスを除き経験しておりません。Apacheの設定/コンパイルミス、サーバへの攻撃、PHPアクセラレータの暴走、PHP本体の暴走、小説家になろうプログラムの不具合などなど、原因は一つとは限らないため、すでに負荷検査を完了した部分も含めありとあらゆる可能性を再調査、原因究明に全力を尽くしております。また、強制終了できない件について、OSの設定についても調査しております。


このうち、ログにはサーバへの攻撃は記録されていませんでした。
原因が判明し改善できるまでご迷惑をおかけしますが、解決まで今しばらくお待ちください。
投稿者: ume  linkLink 

2009-10-06

サーバ接続障害に関して

利用者増加に伴いセッションサーバおよびデータベースサーバが過負荷状態となり、すべてのウェブサーバが正常に動作しない状態となっています。
ご利用の皆様には多大なご迷惑をおかけしていますことお詫びします。

現在、セッションサーバの分散を検討しておりますが、当初の想定よりもかなり早い段階での過負荷であり、セッションサーバ調達から増設までにかなりの時間(数日)を要すものと考えております。その間、夜間を中心に小説家になろうに大変接続しにくい状況が発生するものと考えております。
ご迷惑をおかけいたしますこと深くお詫び申し上げます。


▽23時55分
セッションサーバとは関係ありませんが、国内サーバの準備が完了しましたので、画像やCSS、JavaScriptを配信する静的サーバをAmazonEC2(米国東海岸)から通信速度の速い日本国内サーバ(旧サーバ)に移動しました。
投稿者: ume  linkLink 

サーバトラブルについて

現在小説家になろうへの接続が不安定な状態が続いております。
接続の調整とサーバの増設を行っておりますが追いつかない状態です。

復旧に尽力しておりますが、ユーザの皆様には
ご不便とご迷惑をおかけしておりますこと、お詫び申し上げます。
投稿者: hiro  linkLink 

2009-10-05

2009年10月5日20:00前後のサーバトラブルについて

2009年10月5日20:00から約15分の間、小説家になろうに接続できない状態となっておりました。
現在は復旧しております。

ユーザの方にはご不便、ご迷惑をおかけいたしましたこと、お詫び申し上げます。



■21:30 追記

再度接続障害が発生し、サイトに繋がりにくい状態となっております。
原因は現在調査しております。
ご迷惑をおかけし、大変申し訳ございません。

■23:45追記
接続障害の原因についてですが、WEBサーバへの急激なアクセス増加が原因でした。
現在、3台のWEBサーバに分散しておりますが、依然、改善しない状態です。
引き続き、サーバ増強作業に努めます。ご迷惑をおかけしていますこと、お詫びします。

■10/6 12:25追記
さらにWEBサーバ1台を追加し、現在、4台のWEBサーバに分散しております。引き続き、サーバの負荷を調査しております。
投稿者: hiro  linkLink 

2009-09-27

小説閲覧サーバへの接続障害

2009年9月28日10時現在は仮復旧していますが引き続き監視を行います

2009年9月27日23時35分現在、URLがhttp://ncode.syosetu.comではじまる小説閲覧サーバにアクセスしにくい状態が続いております。くわしい原因は調査中ですが、上位回線のトラブルかと思われます。
ご利用の皆様にはご迷惑をおかけいたしますが、ご理解とご了承をお願いいたします。

【続報】
▽2009年9月28日0時01分追記
依然、原因不明ですが、別回線(<緊急用の予備)でサーバに接続したところ、DBサーバ/WEBサーバ本体に異常は確認できませんでした。上位回線(プロバイダ)のトラブルと考えております。

▽2009年9月28日0時25分追記
10~100回に1度ぐらいはサーバに接続できているようです。ご迷惑をおかけして申し訳ありません。

▽2009年9月28日9時50分追記
午前1時ごろにほぼ復旧し、午前9時ごろまでに完全復旧しております。原因は依然不明で、本日の同時刻に接続障害が発生する可能性もあります。なるべく早期解決を目指しますのでご理解とご了承をお願いします。
投稿者: ume  linkLink 

2009-09-20

ラブノベ、小説を読もう!への接続障害解消に関して

本日、2009年9月20日午前7時30分ごろに発生しました「ラブノベ」「ノクターンノベルズ(ケータイ)」「小説家になろうデベロッパー(一部)」と「小説を読もう!(一部)」への接続障害は本日、午後15時までにすべて復旧いたしましたのでご連絡いたします。
ご利用の皆様には多大なご迷惑をおかけいたしましたこと、深くお詫びいたします。

▽原因
データベースサーバへの過負荷
(どのような経緯で過負荷になったのか詳細を調査中)


引き続き接続障害が発生する場合、ブラウザにキャッシュが残っている可能性があります。
お手数ですが、その場合はキャッシュ削除をお願いします。
投稿者: ume  linkLink 

2009-09-13

13日14時に発生したサーバ障害について

本日、2009年9月13日14時ごろ、メインデータベースに障害が発生し、一時的に接続しにくい状態になりましたことお詫びします。
また、この障害のため、公式ブログの記事が一時消えていたのと、検索系データベースの小説情報が18時ごろまで更新されない状態となっていました。
ご迷惑をおかけしましたこと、お詫びするとともに再発防止に努めさせていただきます。
投稿者: ume  linkLink 

2009-09-05

小説検索系サーバ増強のお知らせ

システム担当のウメです。
小説検索サーバへのアクセス急増による接続障害でご迷惑をおかけしていますこと、お詫びいたします。
本日、2009年9月5日午前2時に小説検索系サーバを新たに1台追加しましたのでご案内いたします。
このサーバ追加によるサービス停止はございませんが、依然、小説検索サーバが混雑した状態が続いています。
ご利用の皆様にはご迷惑をおかけしますが、何卒ご理解とご了承をお願いします。

▼今回の対策
ラブノベ/ノクターンノベルズ(ケータイ版)/小説を読もう!/PDF小説ネット/なろうデベロッパーで共有していましたWEBサーバ/DBサーバを分散しました。現在はもっとも負荷が大きかった「ラブノベ」をスペックの高い新サーバ(旧サーバとでは3倍以上の性能差)に移行しています。引き続き、小説を読もう!とデベロッパーのシステムをノクターンノベルズ(ケータイ版)と完全分離すべく準備中です。
これらのシステム増強作業は明日(日曜日)までにすべて終了する予定です。
投稿者: ume  linkLink 

2009-09-03

小説検索系サーバ接続障害のお知らせ

いつも小説家になろうグループをご利用いただきありがとうございます。
最近、夜間を中心に小説を読もう!/ノクターンノベルズ(ケータイ版)/ラブノベ/PDF小説ネットが混雑しておりつながりづらい状態が続いています。原因についてはアクセス数の増加、利用者数の増加にあり、現在、上記サイトに100~140の同時接続を確認しています。
上記サイトの開発当初の想定上限数をはるかに上回る数値であり、リニューアル前ではありますが、緊急でサーバ追加を準備中です。


サーバ追加については手続きの関係上、約1日~7日程度かかる見通しです。
なるべく早期のサーバ追加を行うべく努めますので何卒ご理解とご了承をお願い申し上げます。
ご迷惑をおかけしていますこと、お詫びします。
その他の閲覧、執筆サーバについては現在、深刻な障害は確認していません。
投稿者: ume  linkLink 

«Prev || 1 | 2 | 3 |...| 11 | 12 | 13 || Next»