米Twitter、リアルタイムデータ処理システム「Storm」をオープンソースで公開

 米Twitterは8月4日、リアルタイムデータ処理システム「Storm」をオープンソースにする計画を発表した。Stormは同社が7月に買収した米BackType Technologyの技術で、データストリームの解析などに利用できるという。

 Stormは「リアルタイムデータ処理のHadoop」を標榜する技術で、大量データの分散処理を行うためのクラスタシステム。BackTypeがTwitterに買収される前の6月に発表、オープンソースにする計画を明らかにしていた。

 StormはJava仮想マシン上で動作し、さまざまなプログラミング言語で行う処理を実装できる。クラスタシステムはクラスタをコントロールする「Nimbus」、実際の処理作業を実行する「Supervisor」、Supervisorを監視・制御する「Zookeeper」から構成され、Supervisorノードが処理を分割してZookeeper経由でSupervisorに実行させる、という3層構造を取る。これにより高い安定性が実現され、たとえばNimbusノードやSupervisorノードが停止してもシステムは問題なく処理を実行し続けられるという、

 用途としては、ツイートなどのデータストリームの処理やデータベースのリアルタイムアップデート、継続的コンピュータ処理、分散RPCなどに適しているとのこと。フォールトトラレント、堅牢なプロセス管理、追跡機能、ローカルモードと分散モード、容易な設定・運用などが特徴で、BackType自身も利用しており、さまざまなユースケースを解決できるという。

 Twitterは9月19日に米国で開催されるイベント「Strange Loop 2011」でStormのソースコードを公開する。

米Twitter
http://www.twitter.com/