オープンソース検索エンジンの要件と取り組み
現在、search.wikia.comというページを設けています。これはSearch Wikia Labsのページです。人々が議論しアイディアを形成し始めるウィキですが、いまここのメーリングリストがより重要になっています。毎日新しい開発者が様々なオープンソースソフトウェアプロジェクトから参加してきて「何か助けたいんだけれど」とメールを送ってきています。そこで、メーリングリストに参加してもらい、話を始めています。そこで、Jeremie Millerとも話しています。
Jeremie MillerはJabberの創設者です。Jabberはオープンソースのインスタントメッセージングプロトコルです。私たちは彼が世界のオープンソース開発者のトップ20に入る人だと考えています。彼はとても素晴らしい人物で、誰もが彼を愛しており、オープンソフトウェア業界のキーパーソンは誰もがJeremieを知っています。彼はXMPPメッセージングプロトコルを開発し、最も重要なのは彼がオープンさと民主的なコントロールという私の哲学を共有していることです。ですから彼とプロジェクトについて話すために一緒に座ったときに、彼に私たちがどのように仕事をしたいか、どのように仕事をしなければいけないかを絶えず話す必要はありませんでした。彼はすでにそれを知っており、参加するのに完璧な一人でした。私がこのアイディアを発表したときに、彼は最初にアプローチしてきた人の一人だったんです。その前に一度も会ったことはなかったんですよ。
ですから私たちはメーリングリストで、「このプロジェクトがどうあるべきか」という基本的な原則について話し合ってきました。最初の原則は、透明性です。システムとアルゴリズムがどのように機能しているかについてオープンソースラインセンスであり、オープンなコンテンツであるという二つです。人々がシステム全体と様々な方法で相互作用できるようにします。
二つめの原則はコラボレーションです。これは全員が何らかの方法で貢献することができるということです。個人としてであろうと組織としてであろうとです。コミュニティーとソーシャルにフォーカスします。ある人はプログラミングで参加し、モジュールの拡張を追加し、別の人はコミュニティーがどのサイトをスパムサイトと判断するべきかの手助けをしたりなどします。
クオリティーはもう一つの原則です。このプロジェクトはとても大きな夢であり、楽しくエキサイティングなアイディアですがクオリティーは、検索エンジンと同じようにウィキペディアにとっても非常に重要です。ウィキペディアに載っている内容がゴミのようなものだったら成功していなかったでしょう。同じことが検索エンジンについてもいえます。検索をした結果がゴミだらけだったら、それは失敗でしょう。ですから品質はとても重要です。
それからプライバシーがあります。これはとても重要で達成するのがとても難しいものです。人々がサイトを使って情報を共有しているのはプライベートではありません。ウィキを書くのはプライベートとして行っていることではありませんが、検索をしているときは、その人が何を探しているかについては知られたくないものです。例えば、ウィキペディアでは何が追加されたか、あなたがどう貢献しているかは全て見ることができます。ですが、それはあなたのパブリックな活動です。私はあなたが何を読んでいるかは見ることができません。他の人がそれを読んでいるのを知ったら動揺してしまうものを読んでいるのかもしれません。ですからこれが達成しなければいけないバランスです。どのようなプライバシーのニーズがあるか、そしてそれをコントロールするためにどのようなツールを提供するか、どの情報を公開し、公開しないかをユーザーが選択できるようにします。
さて、つい最近、私たちはGrubを買収しました。これはウェブをクロールするプロジェクトです。このプロジェクトの歴史はとても面白いものです。2000年にオープンソースプロジェクトとしてウェブをクロールするシステムを開発し、それを配布するために始まりました。ですが、継続して改善が行われていったものの、不幸にも著作権を有するやり方でそれがなされていったのです。そのため参加している人はどんどんと減っていきました。最終的には、それは使われなくなりました。ですが、このツールの開発者はまだ情熱を持っており、私たちが買収して、再びオープンソースとなり、パブリックなプロジェクトになったことを喜んでいます。これはもちろんフルスケールの検索エンジンを作るプロジェクトのごく一部です。これはウェブ全体をクロールするツールの一つです。
最後に、私たちが必要な助けについて話したいと思います。ウィキペディアンは他の誰よりもウィキによる社会的協業を良く理解しています。多くの人がこのプロジェクトを最初聞いたときに、「スパマーがシステムを滅茶苦茶くにしてしまうから、そんなことできないよ」と言いました。「どうやってコミュニティーが物事を正しくもっていくのを信頼できるの?」と。でも、私たちは、ウィキペディアンは、それをどうやって行うのかを知っています。コミュニティーが正しくコントロールを行い、スパマーを防ぐための私たちが使っている多くのテクニックとツールがあります。ユーザーをブロックしたり、ふるいにかけたりすることによってです。この領域に必要とされる新しいツールがあります。私たちがソーシャルウェブサイトを立ち上げれば、多くの人が何が起こっているのかを経験し、分析するのを助け、フリーライセンスの高品質な検索エンジンというゴールが、悪い人の手に陥らずに存在していくことを望んでいます。
さて、幾つか哲学的な質問があります。私たちの編集ポリシーに関する深い知識によって、コミュニティーによって成される決断により、よりよい方法で回答することができます。検索結果はどう出すのか? 公平さをどう判断するのか? どのサイトが結果として出るべきなのか? どのように質を判定するのか? 私たちはこの問題が複雑なことを知っていますし、ウィキペディアの中で議論してきました。これはウィキペディアンが助けることができる課題です。
URLの管理はどうするか。私が最初にプロジェクトを発表したときに多くの人が誤解しているのが、「検索結果を表示するのにWikiを使うの? 途方もない労力が必要だし、決して終わらないよ。」というものでした。もちろん、その通りです。それは絶対に終わりません。これは18億の記事がある百科事典ではなく、事実上無数のページが存在するインターネットです。ですが、URLの管理のためにツールが必要であり、UIについて考える必要があります。いくつかのクリックと、いくつかのコマンドで検索エンジンのスパイダーのプロセスを便利に手軽に指示できるようにです。
そして最後に皆さんができる単純なことは、Grubをダウンロードすることです。ちょうどオープンソースクライアントとしてリリースしたところです。残念なことにこれは以前、著作権があるプロジェクトであったため現在はウィンドウズ版だけで、Linux版はとても古いのがあるのみです。ですが、今はオープンソースとなっています。ソースコードが入手可能です。もしもあなたがプログラマならば、それを見てどのように動いているのかを調べ、それを改善することができます。もしもそれをダウンロードしたならば、テストモードで動かしてください。すると私たちがウェブをクロールするのを助けて頂いていることになります。
以上がJimmy Wales氏の講演の内容だ。ウィキペディアは日本でもよく知られているサイトだが、海外での展開も目覚ましく、ウィキペディアを活用した大学講座、Wikiversityといった構想も動き出している。そしてWikiaについては日本ではまだそれほど話題にはなっていないが、非常に興味深い取り組みといえるだろう。特にオープンソースの検索エンジン、そしてそのパーツとしてのオープンソースのクローリングツールの展開は目が離せなくなりそうである。今後の同氏の生み出す動きに期待したい。
