[Anthy-dev 2733] 単語収集ツールのプロトタイプ

アーカイブの一覧に戻る

Yusuke TABATA yusuk****@w5*****
2005年 12月 18日 (日) 21:18:00 JST


田畑です。

#uim-1.0.0betaは手元では問題なく動いていて快適です ;)

単語の収集の実験として、wikiページ上のテーブルから単語の情報を
抽出するツールを書いてみました。
http://anthy.sourceforge.jp/cgi-bin/hiki/hiki.cgi?%BC%C2%B8%B3%2F%C3%B1%B8%EC%BC%FD%BD%B8
のような形式で単語を書いておき、各ユーザは手元からツールを起動して
最新の単語や特定分野の単語を取得するという使い方を想定しています。

http://prdownloads.sourceforge.jp/anthy/18061/fossil-0.5.tar.gz
からダウンロードして
$ ./configure; make
$ ./fossil -f url-list | anthy-dic-tool --append
のようにすると単語が登録できると思います。

url-listには上記のwikiのURLが書かれています。

極めていい加減なソースコードなので、HTTPのproxyに対応していないとか、
HTMLのパースがいい加減だとか問題だらけであることを覚悟して試して
ください。
せめてC++、できればruby等で書くべきという気もします。また、HTTPの
ライブラリを使うべきですね...

将来的には辞書ツール側にこの機能を持ってもらえればエンドユーザにも
使いやすいものになると思っています。
apt-get updateやyum updateのノリでお好みのリポジトリを指定しておき、
定期的に実行することで、時事ネタに追従できるようになると理想的です。

辞書周りは今後も試行錯誤が必要な領域だと考えていて、このツールの
やりかたが決定打になるとは思っていません。コメントや感想をお待ち
しています。
また、引き取って開発を進めてくれる方も募集中です ;)

-- 
--
 CHAOS AND CHANCE!
  Yusuke TABATA




Anthy-dev メーリングリストの案内
アーカイブの一覧に戻る