[mecab-users 296] Re: ユーザー辞書登録時の品詞細分類

アーカイブの一覧に戻る

Taku Kudo taku****@chase*****
2007年 8月 13日 (月) 00:52:51 JST


工藤です

mecab-ipadic をベースに拡張しているのであれば、言い換えれば
独自の学習コーパスからパラメータを学習していないのであれば、
細分類を設定してもまったく問題ありません。

解析に実際使われるのは、表層形の後にある、3つの数字だけです。
左文脈と右文脈ID ですが、 left-id.def, right-id.def に対応表があります。

ある単語を left id=100, right=200 と設定すれば、mecab 内部では
左から見ると left-id.def中の100番に対応する品詞,
右から見れば right-id.def中の200番に対応する品詞として動作します。

通常は左から見ても右から見ても品詞は同じになりますが、複合語を登録したいとき
は事情が若干変わります。たとえば、「倖田來未」を1単語として登録したいときは、
もともと 性-名 と分割できるので、品詞は 左からその単語を見ると
「名詞,固有名詞,人名,性」、右から見ると、「名詞,固有名詞,人名,名」となります。

辞書中の残りのCSVカラムにどんなことを書こうと、このIDが全てです。
CSVのカラムを空にしたり、英語の訳を入れたり、スパムスコアを書いたり、
ドメイン固有の専門知識を入れたり、ID の整合性がとれてさえいれば、
なにを書いても問題ありません。mecab は残りの CSV の部分を出力するだけです。

くどう


07/08/12 に 遠藤大二<dendo****@rakun*****> さんは書きました:
> 遠藤です
>
> 獣医関係の専門用語をユーザー辞書に登録して活用を計画しております。
> ほとんどの用語は、名詞なのですが、mecab分析後の活用のため、細分類1-3をこちらで設定したいと考えています。
> ユーザー辞書での品詞細分類の独自設定は可能なのでしょうか。
>
> たとえば
> 表層形     左文脈ID   右文脈ID   コスト     品詞      品詞細分類1  品詞細分類2  品詞細分類3
> アイリッシュ・ウルフハウンド 1285     1285    5000 名詞 固有名詞 犬種 *
> γグロブリン  1285    1285    5000    名詞      専門 生化学 *
>
> などとして、分析後に支障が出ないでしょうか。
>
> 御助言いただけると助かります。
> よろしくお願いします。
>
> _______________________________________________
> mecab-users mailing list
> mecab****@lists*****
> http://lists.sourceforge.jp/mailman/listinfo/mecab-users
>




mecab-users メーリングリストの案内
アーカイブの一覧に戻る