[mecab-users 297] Fwd: ユーザー辞書登録時の品詞細分類

アーカイブの一覧に戻る

遠藤大二 dendo****@rakun*****
2007年 8月 14日 (火) 01:38:08 JST


工藤さん

解説いただき、ありがとうございました。
良く理解でき、当分はipadicベースでの拡張を行えることがわかりました。

また、いずれ、独自の学習コーパスを準備する必要性も理解できました。獣医関係でも多数の複合語が存在しており、それを的確に標準化する必要があります。

今後rubyでアプリケーションを開発しますが、ユーザー辞書に登録した単語については、細かい品詞分類情報を利用して処理しやすくなります。

ただ、その際には、一般名詞としてすでに辞書に登録されている単語にそのような情報がないので、一般的な単語がかえって使いづらくなるという問題が起きることに気がつきました。この問題に対する対処はアプリケーションの中で解決していきたいと思います。

ところで、 今回 Fedora 7 に mecabをインストールしたのですが、少し癖があるようですので、別スレッドで報告します。

では。


工藤です

mecab-ipadic をベースに拡張しているのであれば、言い換えれば
独自の学習コーパスからパラメータを学習していないのであれば、
細分類を設定してもまったく問題ありません。

解析に実際使われるのは、表層形の後にある、3つの数字だけです。
左文脈と右文脈ID ですが、 left-id.def, right-id.def に対応表があります。

ある単語を left id=100, right=200 と設定すれば、mecab 内部では
左から見ると left-id.def中の100番に対応する品詞,
右から見れば right-id.def中の200番に対応する品詞として動作します。

通常は左から見ても右から見ても品詞は同じになりますが、複合語を登録したいとき
は事情が若干変わります。たとえば、「倖田來未」を1単語として登録したいときは、
もともと 性-名 と分割できるので、品詞は 左からその単語を見ると
「名詞,固有名詞,人名,性」、右から見ると、「名詞,固有名詞,人名,名」となります。

辞書中の残りのCSVカラムにどんなことを書こうと、このIDが全てです。
CSVのカラムを空にしたり、英語の訳を入れたり、スパムスコアを書いたり、
ドメイン固有の専門知識を入れたり、ID の整合性がとれてさえいれば、
なにを書いても問題ありません。mecab は残りの CSV の部分を出力するだけです。

くどう


07/08/12 に 遠藤大二<dendo****@rakun*****> さんは書きました:
> 遠藤です
>
> 獣医関係の専門用語をユーザー辞書に登録して活用を計画しております。
> ほとんどの用語は、名詞なのですが、mecab分析後の活用のため、細分類1-3をこちらで設定したいと考えています。
> ユーザー辞書での品詞細分類の独自設定は可能なのでしょうか。
>
> たとえば
> 表層形     左文脈ID   右文脈ID   コスト     品詞      品詞細分類1  品詞細分類2  品詞細分類3
> アイリッシュ・ウルフハウンド 1285     1285    5000 名詞 固有名詞 犬種 *
> γグロブリン  1285    1285    5000    名詞      専門 生化学 *
>
> などとして、分析後に支障が出ないでしょうか。
>
> 御助言いただけると助かります。
> よろしくお願いします。
>
> _______________________________________________
> mecab-users mailing list
> mecab****@lists*****
> http://lists.sourceforge.jp/mailman/listinfo/mecab-users
>


-- 
酪農学園大学 獣医学部 放射線学教室
遠藤大二
Tel: 011-388-4847
Fax:011-387-5890




mecab-users メーリングリストの案内
アーカイブの一覧に戻る