Translate

Post Date:2009年1月24日 

茶筌でテキストマイニング(連結品詞)

品詞を結合して一語と見なす

茶筌でテキストマイニング(辞書の登録)で茶筌(Chasen)の辞書登録方法を説明しましたが、サンプルとして辞書登録した「テキストマイニング」は、辞書に登録をしなければ、下記の解析結果のように、「名詞-一般」と「名詞-サ変接続」に分解されます。同様に「統計解析」については、「名詞-サ変接続」と「名詞-サ変接続」に分解されます。

WinChaでの実行結果(連結品詞登録前)

未知語でない場合は、辞書登録以外にも連結品詞という方法で一語と判断させる方法があります。実際に試してみましょう。


chasenrcの変更

c:\Program Files\chasen21\dic\chasenrc をメモ帳やテキストエディターで開いて

;(連結品詞 ((名詞 数))
;((記号 アルファベット)))

の下に

(連結品詞 ((名詞 一般) (名詞 一般)(名詞 サ変接続)))

と追記して保存します。

上記は、「名詞-一般」若しくは「名詞-サ変接続」が連続する場合には、「名詞-一般」とするという意味になります。chasenrcを保存してWinChaを実行してみましょう。


WinChaでの実行結果(連結品詞登録後)


「データマイニング」「統計解析」何れも名詞一般として、一語として判断されました。

この連結品詞を使えば、

① 「2009年」を一語(名詞)として解析
(連結品詞 ((名詞) (名詞 数)(名詞 接尾 助数詞)))

「10大ニュース」を一語(名詞)として解析
(連結品詞 ((名詞) (名詞 数)(接頭詞 名詞接続)(名詞 一般)))

③名詞が連続する場合には、すべて「名詞」とするのであれば、下記のように記載することも可能です。
(連結品詞 ((名詞)))

④連続する記号を一語として解析
(連結品詞 ((記号 一般)))

など、色々設定できるので試してみてください。

※数字は全角数字の場合のみ日本語として解析対象になります。(半角数字は未知語)

一時的に設定を未反映とするならば行頭にセミコロン(;)を付加してください。

;(連結品詞 ((名詞))

茶筌(Chasen)で辞書登録と連結品詞が使いこなせれば解析も随分と捗ります。

関連するブログ(茶筌でテキストマイニング);

Post Date:2009年1月20日 

NHKでエギングとアオリイカの生態を放映

最近NHKでエギングとアオリイカの生態に関する放送が2本ありました。何れもロケ地が西伊豆でしたが、たまたまなのでしょうか?

魚VS釣り名人 解明!水面下の攻防戦「アオリイカ」
【番組説明:引用】
アオリイカは、イカの中では最高級の食材。刺身など、甘くて非常においしい。そんなアオリイカを、釣り師は「エギ」と呼ばれる疑似餌を使って釣ろうとする。しかし、イカは目がよく、ニセモノのエサを使ってたやすく出し抜ける相手ではない。エギを巧みに操り、不思議な動きを演出してイカを誘う釣り名人のワザ。エギを用心深く観察し、警戒心と食い気との間で揺れ動くアオリイカ。両者の「かけ引き」を、水中映像を交えて描く。
日中エギングの提唱者である宮澤幸則氏のエギング実践編の番組でした。地上と水中からの同時撮影で、その巧みな餌木捌きには感銘を受けます。特に気になったのは、宮澤氏が開発に携わったという音を発する餌木です。海が澄んでいて外敵のアオモノの目に晒されるのを恐れて岩場に隠れているアオリイカに対して使っていました。この餌木でシャクると水中でもハッキリと聞こえる鈴の音のような音がしていました。すると、摩訶不思議、イカが集まって来るではないですか。NHKなので当然商品名は出ていませんでしたので、

早速、エギングの師匠に訊ねてみると、ダイワ精巧から発売されている餌木でダイワ(Daiwa) エメラルダス MDスクイッド H-RV (ミッドスクイッド・ハードラトルバージョン)であると即答でした。

テクニックを伴っているからこそアオリイカも寄ってきているのだとは判っているものの、物欲を抑えきれず、

・ノーマルタイプ 3.5号 マーブルピンクスギ
・MD Slow 3.5号 夜光・キン&オレンジアジ

の2本を購入してしまいました。「大音響がイカを魅了する」というキャッチが素敵です。実際手にとってみるとボディの中を玉が転がり「ジャラジャラ」と音を発しているのが分かります。


宮澤幸則氏のエギングDVDもダイワ精工から発売されていました。何れも定価976円(税込み)と、嬉しいお手軽価格なので、今度購入してみようかと思います。

・ダイワ(Daiwa) 釣れる日中エギング 【DVD】












・ダイワ(Daiwa) さらに釣れる エギング2 【DVD】


【番組説明:引用】
静岡県、西伊豆。海藻の森に、春、アオリイカが現れます。体長50センチ。わずか1年の寿命ながら波乱に満ちた生 涯を送ります。赤ちゃんは天敵の魚の猛攻撃を受け、目くらましの墨を吐いて必死に生き延びます。繁殖の時期にはオスが命がけの大バトルを繰り広げます。そ の生き様を支えるのが、巨大なヒレを使ったホバリングの泳ぎと、ジェット噴射泳ぎ。他のイカとは一味違う使い分けです。短い一生を駆け抜けるアオリイカ、 波瀾万丈の物語!
【取材ウラ日記】
こちらは、アオリイカの1年という短い生態の中で春の産卵から夏場の子イカの成長までを描いた番組でした。生魚を捕食するまでの映像や、産卵場所の藻場などは、エギングの勉強にもなります。ロウト(水を吐き出す器官)を使ったジェット噴射を見て、「あんな風にラインを引かれたら」と感じた私と同じエギング初心者の方は数多くいるのではないでしょうか。


冬エギング
先日、時間潰し用の手持ちの本がなかったので、雑誌でもと書店を訪れると、「冬エギング」という見出しに惹かれて購入した雑誌がsalty ! (ソルティ) 2009年 02月号 でした。特集の冬エギングは、エギングを始めるにあたって最初に購入した見てわかる!アオリイカのエギングの著者である杉原正浩氏です。

・基本 この時期の傾向と対策
・ノウハウ 杉原正浩さんの実釣講座
・タックル ショップスタッフが厳選
・餌木 ディープの使い方を解説
 
2009年になってからすっかりと寒くなりエギングには出かけてはいませんが、「冬エギング」という言葉が胸に刺さります。でも杉原氏のエギング釣行記には冬期のエギングは掲載されていませんね。

春は、「まだ」ですか!?
Post Date:2009年1月18日 

茶筌でテキストマイニング(辞書の登録)

最近では、アンケート調査結果の自由回答文をテキストマイニングツールを用いてテキストマイニングを実施するのが当たり前となっていますが、一番最初は、茶筌(Chasen)を使って単語の出現頻度を調べていました。設問を工夫すれば茶筌だけでもかなりの発見があります。

【設問】雑誌に掲載して欲しい記事は?

この場合であれば、名詞句を中心にカウントするだけでも発見はあります。

【設問】新製品の○○について味をひとことで表現すると?

この場合は、名詞句、形容詞句でしょうか。

ここでは、当時お世話になった茶筌についての利用方法について掲載しておきます。


茶筌 version 2.1 for Windows のインストール

茶筌(Chasen)とは、奈良先端科学技術大学院大学松本研究室で開発された形態素解析のツールです。Windows版も提供されています。こちらから「cha21244sp5.exe」がダウンロードできます。


茶筌の実行

WinCha 2000を起動して「テキストマイニングとマインドマップについて考える」と文章を入力して実行した結果が下記になります。(チェックは、表層語と品詞です。)

辞書登録前の実行結果

「データマイニング」は、「データ」と「マイニング」にマインドマップは、「マインド」と「マップ」に分解されています。これは、茶筌(Chasen)の辞書には、「データマイニング」や「マインドマップ」が一語として登録されていないからです。またGoogleやYahooなどは、未知語となります。

このままでは、品詞ごとに単語の出現頻度をカウントするのにもちょっと不便です。

茶筌(Chasen)の辞書登録

そこで、自分で辞書を作成して登録必要があります。辞書登録はコマンドベースのツールしか提供されていませんので、以下の手順で実施してください。


辞書ファイルのダウンロード

茶筌(Chasen)は辞書としてIPA品詞体系を利用していますので、IPADICをダウンロードします。気をつけなければならないのは、IPADICのバージョンです。最新版の辞書もリリースされていますが、WinChaで辞書作成では、こちら からipadic-sjis-2.5.0.zipをダウンロードしてください。


辞書ファイルの展開

c:\Program Files\chasen21 の下にMyDicフォルダを作成します。MyDicにipadic-sjis-2.5.0から下記の4ファイルをコピーして下さい。

connect.cha(連接表ファイル)
grammar.cha(品詞定義ファイル)
ctypes.cha(活用型定義ファイル)
cforms.cha(活用形定義ファイル)

次にipadic-sjis-2.5.0の中にある,Makefile.bat をc:\Program Files\chasen21 にコピーします。


辞書作成実行ファイルの変更

Makefile.batをメモ帳などで開いて、MyDicフォルダで処理をして、作成辞書名をMyDicにするように下記のように内容を変更します。

8行目
変更前:cd dic
変更後:cd MyDic

33行目
変更前:..\mkchadic\sortdic chadic.txt chadic.int
変更後:..\mkchadic\sortdic chadic.txt MyDic.int

40行目
変更前:..\mkchadic\pattool -F chadic
変更後:..\mkchadic\pattool -F MyDic 

辞書登録

MyDicフォルダの下にMyDic.dicというファイルを作成します。ここに下記の辞書内容を定義します。

c:\Program Files\chasen21\MyDic\MyDic.dic
(品詞 (名詞 一般)) ((見出し語 (データマイニング 5000)) (読み データマイニング)) (品詞 (名詞 固有名詞 一般)) ((見出し語 (マインドマップ 5000)) (読み マインドマップ))

辞書作成

Windowsのスタートメニューにある「ファイル名を指定して実行」でcmdと入力して、コマンドプロンプトを立ち上げます。

プロントでcd c:\Program Files\chasen21 と入力してEnterキーを押してください。C:\Program Files\chasen21と表示されますので、続いてmakefileと入力してEnterキーを押すと辞書ファイルの作成が始まります。

下記のように最後にchasen dictionary copiled successfully.と表示されると辞書ファイルの作成は終了です。exitと入力してコマンドプロンプトを終了させます。


再生した辞書ファイルの登録

MyDicフォルダを参照すると下記の4ファイルが作成されています。

MyDic.in
MyDic.pat
matrix.cha
table.cha

この中のMyDic.intとMyDic.patをc:\Program Files\chasen21\dicにコピーします。


MakeFile.bat に上記2ファイルをコピーする記述(赤字部分)を追加すると便利です。

@echo pattool...
..\mkchadic\pattool -F MyDic
if errorlevel 1 goto ERROREXIT

@echo copy jisho-files...
copy /y mydic.pat ..\dic\
copy /y mydic.int ..\dic\

cd ..


環境設定ファイルの変更

茶筌が新たに作成した辞書を参照できるようにc:\Program Files\chasen21\dicにあるchasenrcの内容を変更します。

2行目
変更前:(PATDIC        chadic)
変更後:(PATDIC        chadic MyDic)

これで新しく作成したMyDic辞書も参照されるようになります。WinCha 2000を起動して先程と同様に

「テキストマイニングとマインドマップについて考える」と文章を入力して実行します。

今度は、データマイニングもマインドマップも登録した辞書に従い、一語として認識されます。

辞書登録後の実行結果

関連するブログ(茶筌でテキストマイニング);

関連するブログ(茶筌でテキストマイニング);

象と散歩:人気の投稿(過去7日間)