PSPP:業界標準の統計ツールのLinux版

 最近の情報システムのおかげで、さまざまな組織や機関で山のような情報の収集と参照が可能になっている。ところが、こうした情報は、その山に埋もれた関係性やトレンドを探し出して把握しなければ何の役にも立たない。複雑な手順を踏んで調査を行うプロジェクトではSPSSSASのようなハイエンドな統計解析ツールが有用だが、これらのツールは高価であり、プロプライエタリなライセンスで提供されている。しかし、よく使われているプロプライエタリな統計処理パッケージの1つであるSPSSには、PSPPというオープンソースのクローンが存在する。

 FedoraやUbuntuといった主要ディストリビューションのパッケージリポジトリには、旧バージョンのPSPPが入っている。Ubuntu、Fedora、openSUSEの次期バージョンにはPSPP 0.6.0が収録されるはずだが、その前にPSPP 0.6.0を試したければ、ソースからコンパイルするか、あるいはPSPPのWikiをあたって、自分のディストリビューションで使えるバイナリが提供されていないか確認することになる。

SPSS:プロプライエタリな標準ツール

 PSPPの前に、SPSSを紹介しておこう。もともと社会科学の研究者向けに作られたSPSSだが、今や多くの分野に広まり、連邦および州当局、大企業、学術研究機関のデータ分析者にも利用されている。SPSSのすばらしさは、複雑なデータを分析できるロバストなプログラミング言語と、人文系のユーザでもシステムのパワーを十分に引き出せるユーザインタフェースにある。

 SPSSは、GUIが直観的でわかりやすく、プログラミングの経験がほとんど、あるいはまったくないユーザでも利用できる。一方、R(オープンソース)やSAS(プロプライエタリ)といったほかの統計処理パッケージは、もっぱら熟練プログラマが使っている。SPSSはスプレッドシートによく似たインタフェースを持ち、分析者はこれを使って、複雑なデータ変換を設計したり詳細なクロス集計表を作成したりできる。

 SPSSでは、GUIを訴求力の高い重要な特徴の1つとしながらも、プログラマがスクリプトを書く機会も少なくない。その際には、データ解析専用に設計されたSPSS Syntaxという使いやすい関数型プログラミング言語を用いる。またSPSSでは、プログラマの進化を想定して、プラグインの提供や言語の拡張によってプログラミングが可能な範囲を拡大できるようになっている。

 SPSSの最近のバージョンは、Javaのクロスプラットフォーム性のおかげでLinuxでも動作するが、(学生向けでない)フルライセンスの購入に1700ドルほど、さらに保守費用として毎年425ドルかかる。そのうえ、このライセンスには有効期限があり、私が正規に購入したライセンスは2011年に失効する。こうしたSPSSのコストとライセンス条件が、我々オープンソースコミュニティによる代替ソフトウェアの開発を促したといえる。