Taku Kudo
taku****@chase*****
2007年 8月 13日 (月) 00:52:51 JST
工藤です mecab-ipadic をベースに拡張しているのであれば、言い換えれば 独自の学習コーパスからパラメータを学習していないのであれば、 細分類を設定してもまったく問題ありません。 解析に実際使われるのは、表層形の後にある、3つの数字だけです。 左文脈と右文脈ID ですが、 left-id.def, right-id.def に対応表があります。 ある単語を left id=100, right=200 と設定すれば、mecab 内部では 左から見ると left-id.def中の100番に対応する品詞, 右から見れば right-id.def中の200番に対応する品詞として動作します。 通常は左から見ても右から見ても品詞は同じになりますが、複合語を登録したいとき は事情が若干変わります。たとえば、「倖田來未」を1単語として登録したいときは、 もともと 性-名 と分割できるので、品詞は 左からその単語を見ると 「名詞,固有名詞,人名,性」、右から見ると、「名詞,固有名詞,人名,名」となります。 辞書中の残りのCSVカラムにどんなことを書こうと、このIDが全てです。 CSVのカラムを空にしたり、英語の訳を入れたり、スパムスコアを書いたり、 ドメイン固有の専門知識を入れたり、ID の整合性がとれてさえいれば、 なにを書いても問題ありません。mecab は残りの CSV の部分を出力するだけです。 くどう 07/08/12 に 遠藤大二<dendo****@rakun*****> さんは書きました: > 遠藤です > > 獣医関係の専門用語をユーザー辞書に登録して活用を計画しております。 > ほとんどの用語は、名詞なのですが、mecab分析後の活用のため、細分類1-3をこちらで設定したいと考えています。 > ユーザー辞書での品詞細分類の独自設定は可能なのでしょうか。 > > たとえば > 表層形 左文脈ID 右文脈ID コスト 品詞 品詞細分類1 品詞細分類2 品詞細分類3 > アイリッシュ・ウルフハウンド 1285 1285 5000 名詞 固有名詞 犬種 * > γグロブリン 1285 1285 5000 名詞 専門 生化学 * > > などとして、分析後に支障が出ないでしょうか。 > > 御助言いただけると助かります。 > よろしくお願いします。 > > _______________________________________________ > mecab-users mailing list > mecab****@lists***** > http://lists.sourceforge.jp/mailman/listinfo/mecab-users >