Translate

Post Date:2009年1月27日 

ビールと紙おむつ、そして「統計はビキニのようだ」

ビールと紙おむつ

>先日、「ビールと紙おむつ」の話について、久しぶりに耳にしました。10年以上前にデータマイニングについて学んでいたときに、書籍やセミナーなどで多く取り上げられていた事例です。

米国の大手チェーンストアが購買分析をした結果、金曜日の夕方に男性がビールと紙おむつを一緒に購入しているということが判明。理由として、小さな子供のいる家庭で、妻に荷物となる紙おむつを買うように頼まれた男性が、自身が週末に飲むビールも購入しているからだと分かり、ビールと紙おむつを近くに陳列したところ、売上が向上した。

と、色々なバリエーションはありますが、基本的には上記のような内容です。
この「ビールと紙おむつ」について当時色々な人に聞いても実際の話なのかどうか定かではありませんでしたが、データマイニングの代表的な手法であるマーケットバスケット分析を説明するのにも、意外性のある2つの商品の関連性を発見したという、データの中から宝物を発見するという事例に適していたために伝説的に広がったのではないかと思います。


マーケットバスケット分析


顧客が商品を購入する場合に別な商品をリコメンドするという手法で、クロスセリングと呼ばれています。POSデータを使った購買分析の代表選手核です。

・紙おむつ,ビール
・紙おむつ,ミルク
・ビール,炭酸飲料
・紙おむつ,洗剤,ビール
・紙おむつ,ヨーグルト

例えば、上記5データの中で、「紙おむつ」と「ビール」が同時に購入されているのは、2/5で、支持率は60%です。また、「紙おむつ」を購入すると「ビール」も購入するは、「紙おむつ」を含む4データの中で2つなので、信頼性は50%。ビールを購入すると紙おむつも購入するは、2/3で信頼性は67%となります。

細については、データマイニング手法を参照してください。現在、発売されているのは改訂版のようですが、原著の翻訳本なのであまり内容は変わっていないと思います。翻訳本と併せて原著のData Mining Techniquesを読まれるといいかと思います。


統計はビキニのようだ

データ分析結果をレポーティングするときに、実感する名言です。最近ではセクシャルハラスメント的に捉えられてしまうかもしれませんが、統計解析で陥り易い罠について適切に表現していると思います。「統計はビキニのようだ」としか覚えていませんでしたが、

quotes.netに全文が掲載されています。

Statistics are like a bikini. What they reveal is suggestive, but what they conceal is vital.
by Aaron Levenstein

直訳すれば、「統計はビキニのようだ。露わにされている部分は思わせぶりで、隠されている部分が重要である。」って感じでしょうか。

Post Date:2009年1月24日 

2009年「エギ初め」

午前中は用事があり、昼過ぎに自宅に戻ってから千葉県安房郡鋸南町保田の天気予報を見てみると、
鋸南町保田 1月24日(土)の天気
15時 晴れ 6.6℃ 東北東4m/s
18時 曇り 4.9℃ 西南西1.9m/s
日没 16:59
13:30に出れば、15:00過ぎには到着できるし、気温は低いけど「夕まずめ」にかけて風は弱くなっているから絶好の「エギ初め」日和?

が、しかし、
京葉道路と館山道では、「ユキ注意!」の表示。

不安が過ぎります。

保田港に隣接する野布良港は、エギングを始めるきっかけとなった場所です。保田港につながるテトラ沿いに小さな堤防があります。「エギ初め」の儀式はここしかないと、取りあえず、野布良港に向かいました。

15:30 「エギ初め」
15:15に現地入り。雪も雨も降っていなかったのですが、とても寒いです。取りあえず車を止めて堤防を見に行くと、釣り人は1人。堤防の先端には誰もいません。車の中でラインを結んで出陣です。記念すべき第1投。風がまだ少し強く、ラインの動きでは餌木の着底がわかりずらかったので、カウントします。この辺りは以前に水深5mぐらいと聞いています。満潮後なので+1mとして、水深6m。餌木は18秒~20秒で着底するはずです。軽くロッドを立ててシャクリを入れようとすると....。

いきなり根掛かりです。頑張っても外れません。なんと第1投で餌木をロストしてしまいました(涙)。車に戻って再度、ライン結びから。初投げで餌木ロストなんて縁起が悪すぎです。験を担ぐわけではありませんが、すぐさま場所の移動を決定。

16:00 龍島新堤防
龍島も寒さのせいか釣り人の数は少なかったです。しかし、新堤防の先端両脇ではエギングをしている人たちがいました。テトラや足場には新しい墨跡もあります。やっぱり冬でも頑張っているエギンガーは数多くいるようです。ちょうど先端前方が空いていたのでそこに陣取り、エギングの開始です。2-3投目に確かな手応え。ロッドをたててリールを回すとかなり重い。念願のキロオーバー(1kg超)かとゆっくりと引き寄せていくと、水面にイカが現れました。堤防近くまで寄せてくるとアオリイカではなさげです。「タモ持ってないの?」と、おじさんが玉網で取り込んでくれました。いつも思うのですが、やさしい釣り人が多いです。「これ何イカですか?」と訊ねると「ヤリイカ」と教えてくれました。「ヤリイカは群れでいるから今と同じポイントを狙うといい」と言われたので、先程と同じポイントに投げ入れますが、アタリは皆無。パラパラと雨が降ってきたと思ったら雪に変わってきます。「寒いよ~」


肝心なことを忘れていました。NHKでエギングとアオリイカの生態を放映で記載した新兵器ダイワ(Daiwa) エメラルダス MDスクイッド H-RV (ミッドスクイッド・ハードラトルバージョン)をまだ使っていません。震える手でノーマルタイプ 3.5号 マーブルピンクスギに餌木を交換。しかし、アタリはありません。日没と共にゲーム終了です。

2008年「エギ納め」も2009年「エギ初め」ヨーヅリ(YO-ZURI) アオラTO(帝皇) マーブルトマト 3.5号 A1422-MTMでの釣果です。

身体が冷え切っていたのでラムネ温泉「ばんやの湯」で身体を温めてから帰宅です。今日はカメラを持っていたのですが、雪も降ってきていたので、調理する前にパチリ。美味しくいただきました。

今日の物欲
龍島新堤防で、憧れのオートキングギャフ(孫悟空の如意棒ではありません)を背負っているエギンガーがいました。素敵です。オートキングギャフは何種類かのサイズがでているようですが、第一精工 オートキングギャフ ガンメタ 630は、第一精工 オートキングギャフ535X Ver.2 ガンメタ 5.35Mと比べるとかなりお買い得です。6m30はちょっと長いような気もしますが、心が揺れます。

ギャフを購入する前にもう少し、うまくならないといけませんが。

茶筌でテキストマイニング(連結品詞)

品詞を結合して一語と見なす

茶筌でテキストマイニング(辞書の登録)で茶筌(Chasen)の辞書登録方法を説明しましたが、サンプルとして辞書登録した「テキストマイニング」は、辞書に登録をしなければ、下記の解析結果のように、「名詞-一般」と「名詞-サ変接続」に分解されます。同様に「統計解析」については、「名詞-サ変接続」と「名詞-サ変接続」に分解されます。

WinChaでの実行結果(連結品詞登録前)

未知語でない場合は、辞書登録以外にも連結品詞という方法で一語と判断させる方法があります。実際に試してみましょう。


chasenrcの変更

c:\Program Files\chasen21\dic\chasenrc をメモ帳やテキストエディターで開いて

;(連結品詞 ((名詞 数))
;((記号 アルファベット)))

の下に

(連結品詞 ((名詞 一般) (名詞 一般)(名詞 サ変接続)))

と追記して保存します。

上記は、「名詞-一般」若しくは「名詞-サ変接続」が連続する場合には、「名詞-一般」とするという意味になります。chasenrcを保存してWinChaを実行してみましょう。


WinChaでの実行結果(連結品詞登録後)


「データマイニング」「統計解析」何れも名詞一般として、一語として判断されました。

この連結品詞を使えば、

① 「2009年」を一語(名詞)として解析
(連結品詞 ((名詞) (名詞 数)(名詞 接尾 助数詞)))

「10大ニュース」を一語(名詞)として解析
(連結品詞 ((名詞) (名詞 数)(接頭詞 名詞接続)(名詞 一般)))

③名詞が連続する場合には、すべて「名詞」とするのであれば、下記のように記載することも可能です。
(連結品詞 ((名詞)))

④連続する記号を一語として解析
(連結品詞 ((記号 一般)))

など、色々設定できるので試してみてください。

※数字は全角数字の場合のみ日本語として解析対象になります。(半角数字は未知語)

一時的に設定を未反映とするならば行頭にセミコロン(;)を付加してください。

;(連結品詞 ((名詞))

茶筌(Chasen)で辞書登録と連結品詞が使いこなせれば解析も随分と捗ります。

関連するブログ(茶筌でテキストマイニング);

象と散歩:人気の投稿(過去7日間)