TwitterがBitTorrentで高速にデプロイしている仕組みについて

2010年7月20日

Twitterは、同社の何千台ものサーバに対してバイナリをデプロイする場合に、ピア・ツー・ピアシステムのBitTorrentを利用したツール「Murder」を用いていると、7月1日の記事「Twitterの大規模システム運用技術、あるいはクジラの腹の中(後編)~Twitterのサブシステム「Unicorn」「Kestrel」「Flock DB」」で紹介しました。

FacebookでもBitTorrentによる大規模なデプロイが高速に行われていることは、7月16日の記事「Facebook、memcachedに300TB以上のライブデータを置く大規模運用の内側」で紹介しました。

どうやら大規模システムにおけるデプロイではBitTorrentの利用が進んでいるようです。 7月15日付けのTwitter Engineering Blogに、Twitterのエンジニア、Larry Gadea氏による「Murder」に関するエントリ「Murder: Fast datacenter code deploys using BitTorrent」とビデオが投稿されました。Gadea氏はMurderの開発者のようです。

公開されたビデオを基に、BitTorrentがどのような仕組みでデプロイに用いられているのか、見ていくことにしましょう。

大学を卒業してTwitterに入社

Larry Gadea氏が自己紹介。私は6カ月前にカールトン大学を卒業したばかりで、そのあとTwitterにインフラストラクチャーエンジニアとして入社した。

fig

Twitterでは大量のサーバを運用しており、それらのサーバに対してのアップデートは素早く行わなければならい。しかしGitサーバに対するアクセスによってデプロイを行うことには非常に問題があった。

fig

そこでBitTorrentを使ってデプロイする「Murder」というツールを開発をした。Murderは、BitTorrentを包含して内部ネットワーク用にオプティマイズしたもの。これまで約900秒かかっていたデプロイの時間が約12秒になり、75倍も速くなった。

fig

なぜBitTorrentをベースに選んだかといえば、多くのライブラリがあることが理由の1つだ。

fig

ほかの選択肢としてTreedistという方法もあったが、それほど高速ではなかったのと、ツリーの途中でサーバが落ちていると、それ以後に配布されないと問題があった。もちろん、修正することもできるようだが、それほど効果的な方法とは思えなかった。

fig

さて、BitTorrentによるファイルの配布はこのような状況を想像するだろう。つまり、1人がダウンロードしてアップロードしたものを、みんながダウンロードする、という状況だ。

fig

しかしギガビットイーサネットで接続されているわれわれのようなネットワーク環境では、1人からダウンロードし、アップロードしたらまた1人がダウンロードする、という形式のほうが効率がよい。

fig

この場合には、チェーンが非常に長くなるけれども、ファイルはいくつかに分割されていおり、断片ごとの転送が次々に行われ、マシン間がギガビットイーサネットで接続されているために最初から最後までの転送は非常にシンプルで高速に行われる。

具体的な詳細を説明しよう。まず、1つのサーバに新しいファイルが転送される。そして「Capistrano」がRubyAPIによってすべてのサーバに対して「Trackerへ接続せよ」とシグナルを送る(注:Capistranoは、複数のサーバに同時に指令を送ることができるデプロイツール。Trackerは、BitTorrentのダウンロードサイトを教えてくれるサーバのこと)。

fig

TrackerはBitTorrentネットワークの中央管理サーバで、どこからどこへ接続すべきかを管理している。大量のサーバからTrackerへコネクションしに行くが、短いデータを得るだけで短時間で済むため問題ない。

そうしてあるサーバが別のサーバからデータをダウンロードを開始し、全体のダウンロードが終わったら、メインプロセスはCapistranoへ次の指令を聞きに行く。このとき、プロセスはForkして30秒だけシード(ファイルを配布する役割)となる。これは、どこかのサーバが落ちていたときなどのための最適化でもある。

デプロイ用のBitTorrentには、高速なデプロイのために最適化が施されている。まず、タイムアウトまでの時間を5秒から減らし、リトライまでにかかる時間を短くしたことで全体の性能が向上した。また、暗号化をしないことでCPUの利用を減らした。DHT(分散ハッシュテーブル)による管理は停止し、Trackerだけによる管理にした。

fig

Murderはオープンソースで作られており、基本的にはPythonのスクリプトとCapistranoスクリプトでできている。

将来は、もっとインストールを簡単にするとともに、複数のデータセンターを利用したときにもシンプルにデプロイできるような仕組みを入れたいと考えている。

fig

Murderはgithubのサイトで公開されています

Twitter - Murder Bittorrent Deploy System from Larry Gadea on Vimeo.


このエントリーをはてなブックマークに追加 Bookmark this on Delicious     fig Follow Me  fig RSS

タグ : Twitter , システム運用

次の記事
[PR]インターネットを牽引するエンジニア・クリエイターのためのイベント「Startups2010」
前の記事
クラウド事業者のためのオープンソースプロジェクト「OpenStack」

Loading...

Blogger in Chief

photo of jniino Junichi Niino(jniino)
IT系の雑誌編集者、オンラインメディア発行人を経て独立。新しいオンラインメディアの可能性を追求しています。
詳しいプロフィール


Publickeyの新着情報をチェックしませんか?
Twitterで : @Publickey
RSSリーダーで : Feed





アクセスランキング - 過去7日間

  1. 特許庁の基幹システムはなぜ失敗したのか。元内…
  2. マイクロソフトの責任者が語る「われわれはどの…
  3. 特許庁の基幹システム失敗の背景にある、日本に…
  4. みんなはどんなテスト技法を使っているの? J…
  5. ソフトウェアテストの30年前と30年後(前編…
  6. マイクロソフトでは「開発プロセスのすべてにテ…
  7. ソフトウェアテストの30年前と30年後(後編…
  8. セールスフォース社長がつぶやいたエコポイント…
  9. 「絶対落ちないシステムを作れ」という要件に、…
  10. 客が本気にならないといいシステムができない。…
  11. HTTP 2.0はグーグルのSPDYがベース…
  12. ソフトウェアテストの近未来を話そう(前編)~…
  13. ソフトウェアテストの近未来を話そう(後編)~…
  14. グーグルはあれほど多くのソフトウェアのテスト…
  15. 電子書籍フォーマットの本命、「EPUB」をい…

最新記事 10本

バックナンバー



アルファブロガー・アワード2010受賞 Publickeyはアルファブロガー・アワード 2010を受賞しました! いつもご愛読ありがとうございます。









blog comments powered by Disqus