茶筌でテキストマイニング(辞書の登録)、茶筌でテキストマイニング(連結品詞)と茶筌(Chasen)の設定方法について記載してきましたが、今回は、実践編としてテキストマイニングの基本となる単語の出現頻度をWinChaを利用して調べてみます。
WinChaでメルマガのタイトルを調べる
茶筌(Chasen)を使って自社や競合他社のメルマガのタイトルにどのような言葉が多く使われているかを調べてみましょう。サンプルで使用したのは、日経ビジネスオンラインの10月~12月の3ヶ月の間に発行されたメルマガのタイトルになります。Excelでメールタイトルと関連する変数の表を作成します。
例):
メールタイトル |
月 |
曜日 |
米国で成功しなかったビジネスモデルに挑戦 |
12月 |
Fri |
企業トップの読者が選んだ、リーマンショック後の10大ニュース |
12月 |
Thu |
やっぱりおかしいビッグスリー救済 |
12月 |
Thu |
新コラム、衆院選「候補者A」かく闘わんとす |
12月 |
Wed |
カルロス・ゴーンがGMを救う |
12月 |
Mon |
【独占】楽天・三木谷社長が語るTBS株の行方 |
12月 |
Fri |
今、学校と生徒のために時間を使いたいと思います |
12月 |
Thu |
日本一視察が多いスーパー、ハローデイの“感動経営” |
12月 |
Wed |
地域医療を“貸しはがし”から救った草の根の力 |
12月 |
Tue |
激震・どうなる米ビッグスリー |
12月 |
Mon |
自社のメルマガであれば、これに開封率やクリック率などを追加してもいいかもしれません。
全角変換
茶筅(Chasen)で利用するのは、メルマガのタイトル行だけです。また正しく形態素解析をするために数字、英字を全角に変換しましょう。全角に変換しないと、解析結果が異なります。
下記は、「カルロス・ゴーンがGMを救う」をWinChaで形態素解析した例です。
GMが半角の場合は、未知語として扱われます。
同じ、「カルロス・ゴーンがGMを救う」のGMを全角にすると、名詞-固有名詞-組織となります。全角に変換するには、Excel関数の=jis()を利用すると簡単に変換できます。
また、「カルロス・ゴーン」が「カルロス」、「・」、「ゴー」、「ン」に分解されています。「ゴーン」が人名と解析されるように辞書登録をします。MyDic.dicに
(品詞 (名詞 固有名詞 人名 姓)) ((見出し語 (ゴーン 3000)) (読み ゴーン))
を追加します。
※辞書の登録方法については、茶筌でテキストマイニング(辞書登録)を参照して下さい。
辞書の登録結果が反映されて、「ゴーン」が名詞-固有名詞-人名-姓となりました。
WinChaでメールタイトルを解析する
Excelで全角に変換したメールタイトルをWinChaに貼り付けて全文解析を行います。実行結果を「編集」→「解析結果をコピー」してExcelに貼り付けます。
解析に必要な品詞
解析に必要な品詞は意見が分かれるところでもありますが、下記を参考にしてみて下さい。
解析に必要な品詞 |
名詞 | 名詞 | ○ |
一般 | ○ |
固有名詞 | ○ |
サ変接続 | ○ |
形容動詞語幹 | ○ |
ナイ形容詞語幹 | ○ |
非自立 | △ |
副詞可能 | △ |
代名詞 | △ |
形容詞 | 自立 | ○ |
接尾 | ○ |
非自立 | ○ |
動詞 | 自立 | △ |
非自立 | △ |
副詞 | 一般 | △ |
助詞類接続 | △ |
未知語 | | △ |
○・・・重要 △・・・微妙
上記の品詞をExcelのフィルタ機能を利用して絞り込みをします。後はピボットで集計するだけです。
解析結果(ヒストグラム)
解析結果の基本形を上記品詞で絞り込んだ結果、出現頻度が3回以上の語彙の基本系でヒストグラムを描いたものが以下になります。3ヶ月間で日経ビジネスオンラインでは何を多くとりあげていたかが分かると思います。
同義語について
残念ながら茶筌(Chasen)には、同義語の定義ができません。上記の結果をみると、「米」「米国」がそれぞれ4件あります。またグラフにはありませんが、それ以外にも「アメリカ」が1件あります。これらを同義語と扱う場合には、自動的には処理できませんので、集計結果の編集が必要となります。以下は「アメリカ」に集約した結果となります。
日経ビジネスオンラインのメルマガでは、この3ヶ月間で米国に関しての記事が多く、特にオバマに関して多く取り上げていることがわかります。次に多いのが中国に関連する内容のようです。日本の経済を語るにはやはり、米国と中国がキーワードになるようです。それ以外にも「危機」「ビックスリー」「金融」「市場」と最近の話題がわかります。
茶筌(Chasen)による単語の出現頻度の発展系
例には示しませんが、曜日によるキーワードの差異、同一後の時系列変化、開封率の高いキーワードなど、単語の出現頻度をみるだけでも色々なことを調べることができるのではないでしょうか。今までテキストマイニングを未経験の方も是非ビジネスに活用してみてはいかがでしょうか。
茶筌(Chasen)とExcelで簡単にできるテキストマイニングについての関連書籍があります。Excelで学ぶテキストマイニング入門、事例で学ぶテキストマイニングなどは、テキストマイニングの初級編としては良書だと思います。
関連するブログ(茶筌でテキストマイニング);