Translate

Post Date:2009年2月1日 

茶筌でテキストマイニング(実践編)

茶筌でテキストマイニング(辞書の登録)茶筌でテキストマイニング(連結品詞)と茶筌(Chasen)の設定方法について記載してきましたが、今回は、実践編としてテキストマイニングの基本となる単語の出現頻度をWinChaを利用して調べてみます。

WinChaでメルマガのタイトルを調べる

茶筌(Chasen)を使って自社や競合他社のメルマガのタイトルにどのような言葉が多く使われているかを調べてみましょう。サンプルで使用したのは、日経ビジネスオンラインの10月~12月の3ヶ月の間に発行されたメルマガのタイトルになります。Excelでメールタイトルと関連する変数の表を作成します。

例):

メールタイトル 曜日
米国で成功しなかったビジネスモデルに挑戦 12月 Fri
企業トップの読者が選んだ、リーマンショック後の10大ニュース 12月 Thu
やっぱりおかしいビッグスリー救済 12月 Thu
新コラム、衆院選「候補者A」かく闘わんとす 12月 Wed
カルロス・ゴーンがGMを救う 12月 Mon
【独占】楽天・三木谷社長が語るTBS株の行方 12月 Fri
今、学校と生徒のために時間を使いたいと思います 12月 Thu
日本一視察が多いスーパー、ハローデイの“感動経営” 12月 Wed
地域医療を“貸しはがし”から救った草の根の力 12月 Tue
激震・どうなる米ビッグスリー 12月 Mon

自社のメルマガであれば、これに開封率やクリック率などを追加してもいいかもしれません。


全角変換

茶筅(Chasen)で利用するのは、メルマガのタイトル行だけです。また正しく形態素解析をするために数字、英字を全角に変換しましょう。全角に変換しないと、解析結果が異なります。

下記は、「カルロス・ゴーンがGMを救う」をWinChaで形態素解析した例です。

GMが半角の場合は、未知語として扱われます。

同じ、「カルロス・ゴーンがGMを救う」のGMを全角にすると、名詞-固有名詞-組織となります。全角に変換するには、Excel関数の=jis()を利用すると簡単に変換できます。

また、「カルロス・ゴーン」が「カルロス」、「・」、「ゴー」、「ン」に分解されています。「ゴーン」が人名と解析されるように辞書登録をします。MyDic.dicに

(品詞 (名詞 固有名詞 人名 姓)) ((見出し語 (ゴーン 3000)) (読み ゴーン))

を追加します。

※辞書の登録方法については、茶筌でテキストマイニング(辞書登録)を参照して下さい。

辞書の登録結果が反映されて、「ゴーン」が名詞-固有名詞-人名-姓となりました。


WinChaでメールタイトルを解析する

Excelで全角に変換したメールタイトルをWinChaに貼り付けて全文解析を行います。実行結果を「編集」→「解析結果をコピー」してExcelに貼り付けます。

 

解析に必要な品詞

解析に必要な品詞は意見が分かれるところでもありますが、下記を参考にしてみて下さい。

解析に必要な品詞
名詞 名詞
一般
固有名詞
サ変接続
形容動詞語幹
ナイ形容詞語幹
非自立
副詞可能
代名詞
形容詞 自立
接尾
非自立
動詞 自立
非自立
副詞 一般
助詞類接続
未知語
○・・・重要 △・・・微妙

上記の品詞をExcelのフィルタ機能を利用して絞り込みをします。後はピボットで集計するだけです。


解析結果(ヒストグラム)

解析結果の基本形を上記品詞で絞り込んだ結果、出現頻度が3回以上の語彙の基本系でヒストグラムを描いたものが以下になります。3ヶ月間で日経ビジネスオンラインでは何を多くとりあげていたかが分かると思います。


同義語について

残念ながら茶筌(Chasen)には、同義語の定義ができません。上記の結果をみると、「米」「米国」がそれぞれ4件あります。またグラフにはありませんが、それ以外にも「アメリカ」が1件あります。これらを同義語と扱う場合には、自動的には処理できませんので、集計結果の編集が必要となります。以下は「アメリカ」に集約した結果となります。

日経ビジネスオンラインのメルマガでは、この3ヶ月間で米国に関しての記事が多く、特にオバマに関して多く取り上げていることがわかります。次に多いのが中国に関連する内容のようです。日本の経済を語るにはやはり、米国と中国がキーワードになるようです。それ以外にも「危機」「ビックスリー」「金融」「市場」と最近の話題がわかります。


茶筌(Chasen)による単語の出現頻度の発展系

例には示しませんが、曜日によるキーワードの差異、同一後の時系列変化、開封率の高いキーワードなど、単語の出現頻度をみるだけでも色々なことを調べることができるのではないでしょうか。今までテキストマイニングを未経験の方も是非ビジネスに活用してみてはいかがでしょうか。

茶筌(Chasen)とExcelで簡単にできるテキストマイニングについての関連書籍があります。Excelで学ぶテキストマイニング入門事例で学ぶテキストマイニングなどは、テキストマイニングの初級編としては良書だと思います。

関連するブログ(茶筌でテキストマイニング);

Post Date:2009年1月31日 

NHK エギング関連番組

パイオニアの初期型のDVDレコーダーが動かなくなり、昨年末にTOSHIBA VARDIA HDD500GB RD-S503を購入しました。キーワード検索で録画予約ができ、今まで見逃していた番組もキャッチできるのが便利です。ちなみに「イカ」で検索してヒットした予約録画番組を紹介します。

NHKでエギングとアオリイカの生態を放映で紹介した日中エギングの提唱者である宮澤幸則氏のエギング実践編の番組が再度放送されます。見逃していた方は是非ご覧になってください。また「しゃくって乗せろ 江戸前のスミイカ」は、エギングではなくテンヤによる釣りです。「東京湾~イカの王国」は、これからの放送で未だ見ていませんが、館山のカミナリイカ(紋甲イカ)の生態とあります。







魚VS釣り名人 解明!水面下の攻防戦「アオリイカ」

放送予定日:NHK総合 2/1(日) 16:00

【番組詳細:引用】疑似餌を巧みに操り、アオリイカをだまそうとする釣り名人。警戒心と食い気との間でゆれうごくアオリイカ。西伊豆を舞台に、両者の熾烈な知恵比べを、水中映像を交えて描く。アオリイカは、イカの中では最高級の食材。刺身など、甘く て非常においしい。そんなアオリイカを、釣り師は「エギ」と呼ばれる疑似餌を使って釣ろうとする。しかし、イカは目がよく、ニセモノのエサを使ってたやす く出し抜ける相手ではない。エギを巧みに操り、不思議な動きを演出してイカを誘う釣り名人のワザ。エギを用心深く観察し、警戒心と食い気との間で揺れ動く アオリイカ。両者の「かけ引き」を、水中映像を交えて描く。

にっぽん釣りの旅「しゃくって乗せろ 江戸前のスミイカ」

放送予定日:
NHK BShi
2月 4日(水) 7:00~
2月 5日(木) 12:20~
NHK BS2
2月 6日(金) 9:25~
【番組詳細:引用】女優の黒田福美(くろだふくみ)さんが、東京湾で旬を迎えたスミイカ釣りに初挑戦する。教えてくれるのは小平市でそば屋を営む小林詩(こばやしうた)さん、亜子(あこ)さん姉妹。スミイカテンヤと呼ばれる独特な仕掛けに生きたシャコをくくりつけ、海底に沈めてしゃくりをひたすら繰り返しながら乗りを待つ。根気が勝負の釣りだけにスミイカが乗ったときの手応えは感無量。黒田さん、スミイカを何パイ釣り上げることができるだろうか。(この番組は2008年12月19日に放送されたものです)

知られざる野生「東京湾〜イカの王国」

放送予定日:NHK BShi 2/5(木) 21:30
【番組詳細:引用】日本の海の玄関、東京湾。その南に位置する館山の海にはアマモなどが生い茂る海の草原が広がる。アマモの海に君臨するカミナリイカの生態を中心に、豊かな海の営みを描く。日本の海の玄関、東京湾。その南に位置する千葉県館山の海には、アマモなどが生い茂る海の草原が広がる。アマモの海に君臨するカミナリイカの生態を中心に、豊かな海の営みを描く。【語り】原田裕和アナウンサー(NHK佐賀放送局)(2008年4月4日放送)
Post Date:2009年1月27日 

ビールと紙おむつ、そして「統計はビキニのようだ」

ビールと紙おむつ

>先日、「ビールと紙おむつ」の話について、久しぶりに耳にしました。10年以上前にデータマイニングについて学んでいたときに、書籍やセミナーなどで多く取り上げられていた事例です。

米国の大手チェーンストアが購買分析をした結果、金曜日の夕方に男性がビールと紙おむつを一緒に購入しているということが判明。理由として、小さな子供のいる家庭で、妻に荷物となる紙おむつを買うように頼まれた男性が、自身が週末に飲むビールも購入しているからだと分かり、ビールと紙おむつを近くに陳列したところ、売上が向上した。

と、色々なバリエーションはありますが、基本的には上記のような内容です。
この「ビールと紙おむつ」について当時色々な人に聞いても実際の話なのかどうか定かではありませんでしたが、データマイニングの代表的な手法であるマーケットバスケット分析を説明するのにも、意外性のある2つの商品の関連性を発見したという、データの中から宝物を発見するという事例に適していたために伝説的に広がったのではないかと思います。


マーケットバスケット分析


顧客が商品を購入する場合に別な商品をリコメンドするという手法で、クロスセリングと呼ばれています。POSデータを使った購買分析の代表選手核です。

・紙おむつ,ビール
・紙おむつ,ミルク
・ビール,炭酸飲料
・紙おむつ,洗剤,ビール
・紙おむつ,ヨーグルト

例えば、上記5データの中で、「紙おむつ」と「ビール」が同時に購入されているのは、2/5で、支持率は60%です。また、「紙おむつ」を購入すると「ビール」も購入するは、「紙おむつ」を含む4データの中で2つなので、信頼性は50%。ビールを購入すると紙おむつも購入するは、2/3で信頼性は67%となります。

細については、データマイニング手法を参照してください。現在、発売されているのは改訂版のようですが、原著の翻訳本なのであまり内容は変わっていないと思います。翻訳本と併せて原著のData Mining Techniquesを読まれるといいかと思います。


統計はビキニのようだ

データ分析結果をレポーティングするときに、実感する名言です。最近ではセクシャルハラスメント的に捉えられてしまうかもしれませんが、統計解析で陥り易い罠について適切に表現していると思います。「統計はビキニのようだ」としか覚えていませんでしたが、

quotes.netに全文が掲載されています。

Statistics are like a bikini. What they reveal is suggestive, but what they conceal is vital.
by Aaron Levenstein

直訳すれば、「統計はビキニのようだ。露わにされている部分は思わせぶりで、隠されている部分が重要である。」って感じでしょうか。

象と散歩:人気の投稿(過去7日間)