[mecab-users 40] Re: 長音符号から始まる固有名詞

アーカイブの一覧に戻る

Taku Kudo taku****@chase*****
2006年 2月 3日 (金) 01:02:50 JST


工藤です

> ついでと言ってはナニですが, 同様(?)の問題に中点「・」から始まる固有名
> 詞というのもありました.
>
>     % cat test.txt
>     ・・ダイヤフラム
>     % mecab test.txt
>     ・      記号,一般,*,*,*,*,・,・,・
>     ・ダイヤフラム  名詞,固有名詞,一般,*,*,*,*
>     EOS
>
> 中点(記号?)が 2 つ以上連続する場合におかしいのか, 中点が 1 つしか無い
> 場合は期待通り(?)の動作をします.
>
>     > cat test2.txt
>     ・ダイヤフラム
>     > mecab test2.txt
>     ・      記号,一般,*,*,*,*,・,・,・
>     ダイヤフラム    名詞,固有名詞,一般,*,*,*,*
>     EOS
>
> これは, こういうモノなのでしょうか.

いちよう辞書の定義どおりですが、やっぱ変ですね。

ー と ・ の扱いは非常にやっかいです。今は両方ともカタカナとして
振舞うように mecab-ipadic の char.def の中で定義されています。

カタカナの未知語は、連続するカタカナを取り出すよう
mecab-ipadic で定義されているため 「・ダイヤフラム」 が単語の
候補として切り出されます。最終的には、未知語に与えられたコスト値で
解がきまりますので、コスト値の微妙な大小関係で変な切り
出しになってしまいます。

・をカタカナにしないというのはアリだと思います。ただ、− はそういうわけに
はいかないでしょう。

-- taku



mecab-users メーリングリストの案内
アーカイブの一覧に戻る