Twitterがこのところ不調だった原因は「内部ネットワークの過負荷」と説明

2010年6月15日

先週末からTwitterがしばしば不調となり、何度もクジラの絵が表示される現象に見舞われていました。その主な原因はTwitterの内部ネットワークの構成ミスによる過負荷だったと、Twitterのエンジニアブログに「A Perfect Storm.....of Whales」というエントリで説明されています。

The Twitter Engineering Blog

内部ネットワークが高負荷に

一体何が起きたのか？手短にまとめると3つのミスがあったと説明されています。

In brief, we made three mistakes:
* We put two critical, fast-growing, high-bandwith components on the same segment of our internal network.
* Our internal network wasn't appropriately being monitored.
* Our internal network was temporarily misconfigured.

手短にいえば、3つの間違いがあった。
* 2つのクリティカルな、急速に増長する、広帯域のコンポーネントを内部ネットワークの同じセグメントに置いてしまった。
* 内部ネットワークは適切にモニターされていなかった。
* 内部ネットワークは一時的に設定を間違えていた。

これによって内部ネットワークに過負荷が発生したとのことです。そして、こうしたミスを次のように修正中だと説明。

What we're doing to fix it
* We've doubled the capacity of our internal network.
* We're improving the monitoring of our internal network.
* We're rebalancing the traffic on our internal network to redistribute the load.

私たちが修正中のこととは
* 内部ネットワークの容量を2倍にした。
* 内部ネットワークのモニタリングを改善している。
* 内部ネットワークの負荷を再配分するためのリバランスをしている。

ブログでは、同社の技術部門は2009年をかけて、急増する負荷に対応するようにシステムを再設計してきたが、まだまだ改善の余地があることが分かったとのこと。また、Twitterの稼働状況を知らせるために「Twitter Status」も設置したと紹介されています。

PublickeyではTwitterの内部アーキテクチャについての記事をこれまでも紹介してきました。

大規模なトラフィックを処理するためのFacebookの内部アーキテクチャの解説もあります。