Translate

ラベル .ChaSen の投稿を表示しています。 すべての投稿を表示
ラベル .ChaSen の投稿を表示しています。 すべての投稿を表示
Post Date:2009年2月1日 

茶筌でテキストマイニング(実践編)

茶筌でテキストマイニング(辞書の登録)茶筌でテキストマイニング(連結品詞)と茶筌(Chasen)の設定方法について記載してきましたが、今回は、実践編としてテキストマイニングの基本となる単語の出現頻度をWinChaを利用して調べてみます。

WinChaでメルマガのタイトルを調べる

茶筌(Chasen)を使って自社や競合他社のメルマガのタイトルにどのような言葉が多く使われているかを調べてみましょう。サンプルで使用したのは、日経ビジネスオンラインの10月~12月の3ヶ月の間に発行されたメルマガのタイトルになります。Excelでメールタイトルと関連する変数の表を作成します。

例):

メールタイトル 曜日
米国で成功しなかったビジネスモデルに挑戦 12月 Fri
企業トップの読者が選んだ、リーマンショック後の10大ニュース 12月 Thu
やっぱりおかしいビッグスリー救済 12月 Thu
新コラム、衆院選「候補者A」かく闘わんとす 12月 Wed
カルロス・ゴーンがGMを救う 12月 Mon
【独占】楽天・三木谷社長が語るTBS株の行方 12月 Fri
今、学校と生徒のために時間を使いたいと思います 12月 Thu
日本一視察が多いスーパー、ハローデイの“感動経営” 12月 Wed
地域医療を“貸しはがし”から救った草の根の力 12月 Tue
激震・どうなる米ビッグスリー 12月 Mon

自社のメルマガであれば、これに開封率やクリック率などを追加してもいいかもしれません。


全角変換

茶筅(Chasen)で利用するのは、メルマガのタイトル行だけです。また正しく形態素解析をするために数字、英字を全角に変換しましょう。全角に変換しないと、解析結果が異なります。

下記は、「カルロス・ゴーンがGMを救う」をWinChaで形態素解析した例です。

GMが半角の場合は、未知語として扱われます。

同じ、「カルロス・ゴーンがGMを救う」のGMを全角にすると、名詞-固有名詞-組織となります。全角に変換するには、Excel関数の=jis()を利用すると簡単に変換できます。

また、「カルロス・ゴーン」が「カルロス」、「・」、「ゴー」、「ン」に分解されています。「ゴーン」が人名と解析されるように辞書登録をします。MyDic.dicに

(品詞 (名詞 固有名詞 人名 姓)) ((見出し語 (ゴーン 3000)) (読み ゴーン))

を追加します。

※辞書の登録方法については、茶筌でテキストマイニング(辞書登録)を参照して下さい。

辞書の登録結果が反映されて、「ゴーン」が名詞-固有名詞-人名-姓となりました。


WinChaでメールタイトルを解析する

Excelで全角に変換したメールタイトルをWinChaに貼り付けて全文解析を行います。実行結果を「編集」→「解析結果をコピー」してExcelに貼り付けます。

 

解析に必要な品詞

解析に必要な品詞は意見が分かれるところでもありますが、下記を参考にしてみて下さい。

解析に必要な品詞
名詞 名詞
一般
固有名詞
サ変接続
形容動詞語幹
ナイ形容詞語幹
非自立
副詞可能
代名詞
形容詞 自立
接尾
非自立
動詞 自立
非自立
副詞 一般
助詞類接続
未知語
○・・・重要 △・・・微妙

上記の品詞をExcelのフィルタ機能を利用して絞り込みをします。後はピボットで集計するだけです。


解析結果(ヒストグラム)

解析結果の基本形を上記品詞で絞り込んだ結果、出現頻度が3回以上の語彙の基本系でヒストグラムを描いたものが以下になります。3ヶ月間で日経ビジネスオンラインでは何を多くとりあげていたかが分かると思います。


同義語について

残念ながら茶筌(Chasen)には、同義語の定義ができません。上記の結果をみると、「米」「米国」がそれぞれ4件あります。またグラフにはありませんが、それ以外にも「アメリカ」が1件あります。これらを同義語と扱う場合には、自動的には処理できませんので、集計結果の編集が必要となります。以下は「アメリカ」に集約した結果となります。

日経ビジネスオンラインのメルマガでは、この3ヶ月間で米国に関しての記事が多く、特にオバマに関して多く取り上げていることがわかります。次に多いのが中国に関連する内容のようです。日本の経済を語るにはやはり、米国と中国がキーワードになるようです。それ以外にも「危機」「ビックスリー」「金融」「市場」と最近の話題がわかります。


茶筌(Chasen)による単語の出現頻度の発展系

例には示しませんが、曜日によるキーワードの差異、同一後の時系列変化、開封率の高いキーワードなど、単語の出現頻度をみるだけでも色々なことを調べることができるのではないでしょうか。今までテキストマイニングを未経験の方も是非ビジネスに活用してみてはいかがでしょうか。

茶筌(Chasen)とExcelで簡単にできるテキストマイニングについての関連書籍があります。Excelで学ぶテキストマイニング入門事例で学ぶテキストマイニングなどは、テキストマイニングの初級編としては良書だと思います。

関連するブログ(茶筌でテキストマイニング);

Post Date:2009年1月24日 

茶筌でテキストマイニング(連結品詞)

品詞を結合して一語と見なす

茶筌でテキストマイニング(辞書の登録)で茶筌(Chasen)の辞書登録方法を説明しましたが、サンプルとして辞書登録した「テキストマイニング」は、辞書に登録をしなければ、下記の解析結果のように、「名詞-一般」と「名詞-サ変接続」に分解されます。同様に「統計解析」については、「名詞-サ変接続」と「名詞-サ変接続」に分解されます。

WinChaでの実行結果(連結品詞登録前)

未知語でない場合は、辞書登録以外にも連結品詞という方法で一語と判断させる方法があります。実際に試してみましょう。


chasenrcの変更

c:\Program Files\chasen21\dic\chasenrc をメモ帳やテキストエディターで開いて

;(連結品詞 ((名詞 数))
;((記号 アルファベット)))

の下に

(連結品詞 ((名詞 一般) (名詞 一般)(名詞 サ変接続)))

と追記して保存します。

上記は、「名詞-一般」若しくは「名詞-サ変接続」が連続する場合には、「名詞-一般」とするという意味になります。chasenrcを保存してWinChaを実行してみましょう。


WinChaでの実行結果(連結品詞登録後)


「データマイニング」「統計解析」何れも名詞一般として、一語として判断されました。

この連結品詞を使えば、

① 「2009年」を一語(名詞)として解析
(連結品詞 ((名詞) (名詞 数)(名詞 接尾 助数詞)))

「10大ニュース」を一語(名詞)として解析
(連結品詞 ((名詞) (名詞 数)(接頭詞 名詞接続)(名詞 一般)))

③名詞が連続する場合には、すべて「名詞」とするのであれば、下記のように記載することも可能です。
(連結品詞 ((名詞)))

④連続する記号を一語として解析
(連結品詞 ((記号 一般)))

など、色々設定できるので試してみてください。

※数字は全角数字の場合のみ日本語として解析対象になります。(半角数字は未知語)

一時的に設定を未反映とするならば行頭にセミコロン(;)を付加してください。

;(連結品詞 ((名詞))

茶筌(Chasen)で辞書登録と連結品詞が使いこなせれば解析も随分と捗ります。

関連するブログ(茶筌でテキストマイニング);

象と散歩:人気の投稿(過去7日間)