品詞を結合して一語と見なす
茶筌でテキストマイニング(辞書の登録)で茶筌(Chasen)の辞書登録方法を説明しましたが、サンプルとして辞書登録した「テキストマイニング」は、辞書に登録をしなければ、下記の解析結果のように、「名詞-一般」と「名詞-サ変接続」に分解されます。同様に「統計解析」については、「名詞-サ変接続」と「名詞-サ変接続」に分解されます。
WinChaでの実行結果(連結品詞登録前)
未知語でない場合は、辞書登録以外にも連結品詞という方法で一語と判断させる方法があります。実際に試してみましょう。
chasenrcの変更
c:\Program Files\chasen21\dic\chasenrc をメモ帳やテキストエディターで開いて
;(連結品詞 ((名詞 数)) ;((記号 アルファベット)))
の下に
(連結品詞 ((名詞 一般) (名詞 一般)(名詞 サ変接続)))
と追記して保存します。
上記は、「名詞-一般」若しくは「名詞-サ変接続」が連続する場合には、「名詞-一般」とするという意味になります。chasenrcを保存してWinChaを実行してみましょう。
WinChaでの実行結果(連結品詞登録後)
「データマイニング」「統計解析」何れも名詞一般として、一語として判断されました。
この連結品詞を使えば、
(連結品詞 ((名詞) (名詞 数)(名詞 接尾 助数詞)))
(連結品詞 ((名詞) (名詞 数)(接頭詞 名詞接続)(名詞 一般)))
(連結品詞 ((名詞)))
(連結品詞 ((記号 一般)))
など、色々設定できるので試してみてください。
※数字は全角数字の場合のみ日本語として解析対象になります。(半角数字は未知語)
一時的に設定を未反映とするならば行頭にセミコロン(;)を付加してください。
;(連結品詞 ((名詞))
茶筌(Chasen)で辞書登録と連結品詞が使いこなせれば解析も随分と捗ります。
関連するブログ(茶筌でテキストマイニング);
0 件のコメント:
コメントを投稿