Translate

2012年3月25日

ExcelでBox Plot(箱ひげ図)を描く

Excel 2007での箱ひげ図(はこひげず、箱髭図、ボックスプロット、box plot)の作成方法を紹介します。元ネタは、Box Plot for Excel 2007からとなります。

下記が完成した箱ひげ図(box plot)です。株価チャートを使って似たようなグラフを作成できますが、100万倍こちらの方がステキです。

箱ひげ図
Box Plot(箱ひげ図)

箱ひげ図(はこひげず、箱髭図、ボックスプロット、box plot)とは

箱ひげ図(box plot)は、データの分布を可視化するのに優れたグラフです。特に幾つかのデータの分布を比較するのに長けており、分布がどのように異なっているかを視覚的に捉えるのに便利です。Wikipediaで下記のように説明されています。

箱ひげ図(はこひげず、箱髭図、box plot)とは、ばらつきのあるデータをわかりやすく表現するための統計学的グラフである。細長い箱と、その両側に出たひげで表現されることからこの名がある。一般的には(ジョン・テューキーの方式)、重要な5種の要約統計量である、最小値、第1四分位点、中央値、第3四分位点と最大値を表現する。母集団は実際には様々なタイプの確率分布に従うわけだが、箱ひげ図はそのような仮定に関係なく、データの分布を表現することができる。箱の各部分の間隔から分散や歪度の程度、また外れ値(これは後述のように箱ひげ図の方式により異なる)を知ることもできる。

箱ひげ図(box plot)は、データを1/4(25%)ずつに分割して、最小値、第一四分位(25%点)、中央値(50%点)、第三四分位(75%)、最大値の5つの要素でデータの分布を可視化します。

データの分布を5つの要素で可視化

Excelで四分位を求める

Excelで四分位を求めるには、=percentile()、若しくは=quartile()で求めることができます。最大値、中央値、最小値は、それぞれ=max、=median()、=min()で求めることもできます。

四分位の求め方
項目名 備考 PERCENTILE QUARTILE
最大値 データの最大値 PERCENTILE(データ範囲,1)  QUARTILE(データ範囲,4)
第3四分位 データの下から3/4に位置する値(75%点) PERCENTILE(データ範囲,0.75) QUARTILE(データ範囲,3)
中央値 データの中央値(50%点) PERCENTILE(データ範囲,0.5) QUARTILE(データ範囲,2)
第1四分位 データの下から4/1に位置する値(25%点) PERCENTILE(データ範囲,0.25) QUARTILE(データ範囲,1)
最小値 データの最小値 PERCENTILE(データ範囲,0) QUARTILE(データ範囲,0)

Excel 2007で箱ひげ図(はこひげず、箱髭図、ボックスプロット、box plot)を描く

Box Plot for Excel 2007にあるサンプルデータを使用して説明しますが、今回作成したサンプルを下記に置いてありますのでご利用ください。


サンプルデータ
A B C D E F G
1 sample1 sample2 sample3 sample4 sample5 sample6
2 50.5 46.7 43.2 62.5 52.0 53.2
3 51.3 45.5 45.3 64.2 52.3 58.6
4 55.3 45.6 43.2 66.1 55.0 55.4
5 50.3 46.3 43.5 66.7 54.3 53.5
6 55.0 49.7 45.6 63.4 52.6 56.0
7 59.6 49.8 43.1 67.7 53.9 57.6
8 51.3 48.5 45.4 62.2 51.2 54.5
9 56.1 48.7 46.0 68.4 52.1 58.7
10 59.7 48.8 44.1 62.7 54.5 55.7

12-16行にそれぞれ最大値、第三四分位、中央値、第一四分位、最小値を求めます。

B12:B16に下の式を代入してC12:C16からG12:G16にコピーします。

=(B2:B10,4)
=(B2:B10,3)
=(B2:B10,2)
=(B2:B10,1)
=(B2:B10,0)

四分位数の計算結果
A B C D E F G
12 最大値 59.7 49.8 46.0 68.4 55.0 58.7
13 第3四分位 56.1 48.8 45.4 66.7 54.3 57.6
14 中央値 55.0 48.5 44.1 64.2 52.6 55.7
15 第1四分位 51.3 46.3 43.2 62.7 52.1 54.5
16 最小値 50.3 45.5 43.1 62.2 51.2 53.2

次にグラフを描写するために必要な値を計算して18-22行に代入します。

B18:B22に下の式を代入してC12:C16からG12:G16にコピーします。

=B15-B16
=B15
=B14-B15
=B13-B14
=B12-B13

グラフ用の計算値
A B C D E F G
18 第1四分位-最小値 1 0.8 0.1 0.5 0.9 1.3
19 第1四分位 51.3 46.3 43.2 62.7 52.1 54.5
20 中央値-第1四分位 3.7 2.2 0.9 1.5 0.5 1.2
21 第3四分位-中央値 1.1 0.3 1.3 2.5 1.7 1.9
22 最大値-第3四分位 3.6 1 0.6 1.7 0.7 1.1

積み上げ縦棒グラフで基本グラフの作成

A19:G21を選択して、2-D 縦棒から積み上げ縦棒を選択します(下記のイメージを参考)。

 
積み上げ縦棒グラフの作成

作成したグラフは下から第1四分位、中央値-第1四分位、第3四分位で構成されています。このグラフをよくよく眺めると赤色と緑色の部分が箱ひげ図(Box Plot)の箱の部分になっていることが分かりますでしょうか。

積み上げ縦棒グラフ

箱ひげ図の箱を作成する

作成した積み上げ縦棒グラフの青色(第1四分位)の部分を「塗りつぶしなし」にして、箱ひげ図の箱の部分だけにします。

1)グラフの青色(第1四分位)部分をマウスで選択して、右クリックで「データ系列の書式設定」を選択

第1四分位を選択

2)「データ系列の書式設定」→「塗りつぶし」で「塗りつぶしなし(N)」を選択

第1四分位を塗りつぶしなしに設定

これで、箱ひげ図の箱の部分が作成できました。

箱ひげ図(box plot)の箱部分

箱ひげ図(box plot)の髭(ひげ)を作成する

箱ひげ図(box plot)の髭(ひげ)の部分は、誤差範囲で作成します。

1)グラフエリアを選択してツールバーのレイアウトから誤差範囲の「その他の誤差範囲オプション(M)」を選択

誤差範囲の指定

2)誤差範囲の追加から「第1四分位」を選択

3)箱ひげ図の下側の髭(ひげ)を作成するため縦軸誤差範囲の表示は「負の方向」「キャップあり」を選択し、誤差範囲はユーザ設定を選択。値の指定で「負の誤差の値(N)」に第1四分位-最小値(B18:G18)を範囲選択して値を入力

箱ひげ図(box plot)の下髭を作成

これで下側の髭(ひげ)が完成です。

箱ひげ図(box plot)の下髭

続いて上側の髭(ひげ)を作成します。

4)グラフエリアを選択してツールバーのレイアウトから誤差範囲の「その他の誤差範囲オプション(M)」を選択

誤差範囲の指定

5)誤差範囲の追加から「第3四分位-中央値」を選択

6)箱ひげ図の上側の髭(ひげ)を作成するため、縦軸誤差範囲の表示は「正の方向」「キャップあり」を選択し、誤差範囲はユーザ設定を選択。値の指定で「正の誤差の値(N)」に最大値-第3四分位(B22:G22)を範囲選択して値を入力

箱ひげ図(box plot)の上髭を作成

これで髭(ひげ)の部分も作成完了です。

箱ひげ図(box plot)の髭(ひげ)

箱ひげ図(box plot)の見栄えを調整する

箱ひげ図(box plot)はこれで一応完成となります。後は箱ひげ図(box plot)の見栄え(ボックスの縦幅と横幅、色など)を調整します。


ボックス縦幅の調整

1)グラフの縦軸を選んで右クリックから「軸の書式設定(F)」を選択

軸の書式設定

2)軸のオプションで最小値と最大値を自動から固定に変更して値を入力します。今回のサンプルでは、最小値を40、最大値を70としています

軸のオプション

下記が縦幅を調整した箱ひげ図になります。

縦に広がった箱ひげ図(box plot)

ボックス横幅の調整

次に横幅を調整します。

1)グラフの赤色(中央値-第1四分位)を選択して右クリックで「データ系列の書式設定(F)」を選択

データ系列の書式設定

2)系列のオプションで「要素の間隔(W)」で箱の横幅を調整します。値が小さくなるほど、箱の横幅は広がります。サンプルでは50%としています

横幅を調整したグラフが下記になります。

箱の横幅を調整した箱ひげ図(box plot)

グラフの色の削除

グラフの色を削除する場合に枠線をなしのままにしていると箱が表示されなくなってしまいますので注意してください。

1)グラフの赤色(中央値-第1四分位)部分を選択して右クリックで「データ系列の書式設定(F)」を選択

2)枠線の色で「線(単色)(S)」で枠線の色を指定

3)塗りつぶしで「塗りつぶしなし(N)」を選択

これで箱ひげ図の箱の下側が色がなくなり、枠線だけになりました。

同様にグラフの緑色(第3四分位-中央値)部分についても枠線だけにします。


箱ひげ図の完成

凡例を削除すれば、箱ひげ図の完成です。好みで箱に色を付けたり、目盛り線を調整してください。

完成した箱ひげ図


今日の一曲

Yellow Magic Orchestra のアルバムで唯一保有していなかったのが、『浮気なぼくら(インストゥルメンタル)』でした。iTunesでYMOのアルバムが公開され、実にリリースから28年経って、2枚組の『浮気なぼくら&インストゥルメンタル』を購入しました。アルバムを聴いてみると、後期の『BGM』、『テクノデリック』で完成されたYMOがしっかりと組み込まれていました。そして細野さんのリズムと歌詞は、いつの時代もステキです。今日の一曲は、ユキヒロと細野さんのハーモニーが至極刺激的な『FOCUS』です。

2012年3月5日

インターネット広告が新聞広告を抜いた?

2011年 マスコミ四媒体とインターネットの広告費

2012年2月15日に経済産業省の特定サービス産業動態統計調査の2011年12月確報が掲載され、その後、2月23日に電通が2011年の日本の広告費のニュースリリースをアップしていましたので、これらのデータを使ってマスコミ4媒体とインターネットの広告費の動向について考察してみました。

電通の2011年日本の広告費については、下記のように評されています。
2011 年(平成 23 年)の総広告費の特徴

媒体別にみると、「テレビ広告費」(前年比 99.5%)、「新聞広告費」(同 93.7%)、「雑誌広告費」(同 93.0%)、「ラジオ広告費」(同 96.0%)のいずれも減少し「マスコミ四媒体広告費」は同 97.4%と前年を下回った。・・・(中略)・・・「インターネット広告費」(同 104.1%)はソーシャルメディア活用などの新手法が増えた結果、引き続き増加となった。

一方、経済産業書の特定サービス産業動態統計調査によると、「テレビ広告費」(前年比 101.1%)、「新聞広告費」(同 98.3%)、「雑誌広告費」(同 98.6%)、「ラジオ広告費」(同 100%)で、「マスコミ四媒体広告」(同100.4%)と前年維持となっています。また「インターネット広告費」(同 171.6%)については大きく増加したという結果になります。

ふたつの資料には下記に示すように乖離があります。インターネット広告費については、電通の資料では媒体費と広告制作費が合算されていますが、広告制作費を除いても618,900(百万円)となり経済産業省の値とは大きく異なります。

2011年 広告費 特定サービス産業動態統計調査vs電通資料(単位:百万円)

インターネット広告が新聞広告を抜いた?

昨今、インターネット広告費が新聞広告費を上回ったというニュースが散見されましたが、マスコミ四媒体とインターネットの広告費について、経年グラフを描いてみました。

経済産業書の特定サービス産業動態統計調査

経済産業省のデータでみるとインターネット広告費は、2009年に雑誌を超えて、2011年には「新聞広告費」3,816億、「インターネット広告費」3,814億と僅差まで迫ってきています。

経済産業省 特定サービス産業動態統計調査より(単位:百万円)
2011年を月別に表したのが、次のグラフになりますが、第1四半期は各媒体共に震災の影響で、自粛ムードもあり広告告出稿も低迷していたことが分かります。また2011年は新聞広告費とインターネット広告費が拮抗していたことが分かります。但し、12月にはインターネット広告費が差を広げているので、2012年は新聞広告費を大きく引き離す可能性はあります。
経済産業省 特定サービス産業動態統計調査より(単位:百万円)

電通ニュースリリース - 2011年広告費

前述したように電通のインターネット広告費は媒体広告費と広告制作費の合算です。この合算額でのインターネット広告費では、既に2009年に新聞広告費を追い抜いています。下記のグラフは、広告制作費を除いた媒体広告費のみを使用して作成した経年グラフとなります。
電通ニュースリリース 平成24年2月23日より(単位:億円)

インターネット広告費は、経済産業省のデータよりも1年早く、2008年に雑誌広告費を超えています。また新聞広告費との比較では、2010年に追いつき、2011年には「新聞広告費」5,990億、「インターネット広告費」6,189億とインターネット広告費が新聞広告を超える額となっています。

2012年の広告費の動向

データとしては、この他に博報堂の月次売上高月次売上高推移(博報堂・大広・読売広告社3社合算)のExcelファイルが掲載されています。こちらは博報堂の業績データなので、このデータから広告費全体を推し量ることは難しいですが、参考値とはなります。

経年データから単純に時系列分析をすれば、インターネット広告費が2012年には、新聞広告費を大きく引き離す結果になると思いますが、2011年の月別のデータ、また、ここ数年の新聞広告費の下げ止まりをみると、広告出稿主側が媒体を使い分けてきているのではないかという感はあります。但し、昨年からスマートファンの利用が増加しているので、スマートフォンに特化した広告が急成長する可能性はあります。

何れにせよ、ニュース記事だけではなく、公開されているデータを自分で加工してトレンドをみることが大切だと思います。

今日の一曲


Everything But The Girl のデビューアルバム『Eden』のギター・デュオで奏でられる音楽は「ネオ・アコ」と言われていましたが、90年代中頃からエレクトリックポップへとシフトしていきます。1996年にリーリスされたアルバム『Walking Wounded』 は、そんな変遷期の1枚です。3曲目に収録されている Single は
、アコースティックとエレクトリックポップの中庸的な位置付けにあり、とても気持ちよく聴ける一曲です。

2012年2月25日

まだ現役!インターネットラジオSony VGF-WA1(2023年度版)

SONY VGF-WA1/W

Amazon Echo で TuneIn Radio が聴けるので、出番がなくなってしまっていた SONY VGF-WA1ですが、Echo Studioだと音が重厚すぎるので、ラジオっぽくBGMを流すために再設定。

音質的にもラジオっぽさがちょうどいい感じです。10年以上の月日が経っても使用できるデジタルガジェットが愛おしいです。

【追記】 2023年1月

SONY Wi-Fi オーディオ ホワイト VGF-WA1が生産中止になってから随分と経ちます。

過去記事でも SONY VGF-WA1をインターネットラジオチューナーとして使う(その1)SONY VGF-WA1をインターネットラジオチューナーとして使う(その2) と2回記載していますが、未だにインターネットラジオチューナーとして愛用し続けています。

最近では、iPhoneでAirPlayやBluetooth経由でもネットラジオを楽しんでいますが、プリセット登録していれば、スイッチひとつで再生が始まるラジオとしての使い勝手は捨てられませんし、VGF-WA1/Wのフォルムも好きです。

VGF-WA1の付属ソフトウェアは、既に現在のOSに対応していませんが、しかし、インターネットラジオとして利用するのであれば、必要な操作は、ネットワークの接続とウェブラジオの設定変更(プリセットの変更)だけです。

この設定は、ブラウザ経由で設定可能なので、WindowsでもMacでもOKです。


ブラウザでVGF-WA1にアクセスする

VGF-WA1がWi-Fiに接続されている状態で、電源を入れます。

ネットワーク接続については、SETTINGSからパネルで「ネットワーク設定」「アクセスポイント」「手動」で行ってください。暗号キーの入力は、△▽で文字選択できます。

1) VGF-WA1本体のSETTINGSを押します。

2) パネルの「機器情報」をタップします。

3) パネルの「ネットワーク情報」をタップします。

4)Enterをタップしていくと各種情報が表示されます。

5)下記がVGF-WA1本体のIPアドレスとなります。
(IPアドレスは環境によって異なります)

上記のIPアドレスをブラウザで入力すると、VGF-WA1の設定画面が表示されます。

Chromeで表示

専用ソフトウェアなしでアクセスできる仕組みを残してくれたSONYに感謝です。


SHOUTcastのラジオ局を登録する

VGF-WA1では、インターネット上にあるSHOUTcast方式のストリーミングサーバーに接続して、連続して配信される音楽などのMP3音源を聴くことができます。

SHOUTcast でインターネットラジのURLを調べるには、SHOUTcast - Homeにアクセスします。

左側のGENRE(ジャンル)からでも探すことができますが、さまざまなジャンルの音楽チャンネルを提供する、オンラインラジオネットワークの1つである「1.FM」からの登録します。

下記は、1.FMで検索した結果になります。

SHOUTcast

「1.FM - Chillout Lounge」を例に設定していきます。


xspfファイルのダウンロード

ダウンロードアイコンをクリックして「Open Format(.XSPF)」を選択すると「tunein-station.xspf」というファイルがダウンロードされます

SHOUTcast

xspfからアドレスを取得する

ダウンロードした「tunein-station.xspf」ファイルをメモ帳などで開きます。

<location>タグで囲まれているところがURLです。ajazz_128 のアンダースコアからの数字が音質を表していて、_32, _64, _128 がありますが、_128が「128Kbps」で最も高音質なのでこちらのURLをコピーします。

"http://185.33.21.111:80/ajazz_128", "http://185.33.21.112:80/ajazz_128" のどちらでもOKです。

<track>
    <location>http://185.33.21.111:80/ajazz_128</location>
    <title>1.FM - Adore Jazz</title>
</track>
<track>
    <location>http://185.33.21.112:80/ajazz_128</location>
    <title>1.FM - Adore Jazz</title>
</track>

<title>タグで囲まれている部分がタイトルです。


VGF-WA1へのラジオ局の登録

xpsfファイルから取得した「タイトル」と「URL」を「VGF-WA1ウェブラジオ設定」の「任意のラジオ局を登録」にある「表示名」と「URL」に登録します。

VGF-WA1ウェブラジオ設定

保存ボタンをクリックするとVGF-WA1にも設定が反映されます。

以上で、設定は完了です。

下記は、2023年1月時点でのBGMとしてオススメできるインターネットラジオチャンネルになります。

表示名URL
MGT Love Hitshttp://192.95.37.228:8010/mp3
Love Songshttp://93.190.137.196:8354/stream
Rádio 100% Love Songshttp://92.222.77.115:8000/stream/9/
1.FM - ABSOLUTE TOP 40 RADIOhttp://185.33.21.112:80/top40_128
1.FM - Rock Classicshttp://185.33.21.112:80/rockclassics_128
1.FM - Otto's Classical Musichttp://185.33.21.112:80/classical_128
1.FM - Sax4Lovehttp://185.33.21.112:80/sax4ever_128
1.FM - 90shttp://185.33.21.112:80/90s_128
1.FM - Adore Jazzhttp://185.33.21.112/ajazz_128
1.FM - Cafe Radiohttp://185.33.21.112:80/caferadio_128
1.FM - Bombay Beats Indiahttp://185.33.21.112:80/bombaybeats_128
1.FM - A List 80'shttp://185.33.21.111:80/back280s_128
1.FM - Magic 80'shttp://185.33.21.112:80/magic80_mobile_mp3
1.FM - Chillout Loungehttp://185.33.21.112:80/chilloutlounge_128
Beatles Radiohttp://http://64.40.99.76:8000/
2012年1月15日

AirPlayな生活(Apple TV)

Apple TV はあまり深く利用方法も考えずに有楽町のアップルストアに寄ったときに衝動買いしてしまったものでした。最近ではiTunesの映画の本数も増えてきたので、暇な休日に映画をレンタルしています。最近では2011年にTSUTAYA映画レンタルランキングで1位になった『告白』を観ました。

Apple Apple TV MD199J/AApple Apple TV MD199J/A

アップル 2012-03-16
売り上げランキング : 27

Amazonで詳しく見る by G-Tools

初めてiTunesで映画をレンタルしたのはiPadからでしたが、ダウンロード方式で動画が始まるまでに時間がかかりすぎるというストレスがありました。しかし、Apple Apple TV は、ストリーミング方式なので、直ぐに視聴開始することができます。HD(高解像度)のコンテンツは、テレビの大きな画面でもとても綺麗です。SD(標準解像度)でも閲覧してみましたが、テレビで視聴するのであればHD画質と比べれば見劣りしますが、然程気になる画質ではありませんでした。

SD(標準解像度)でレンタルするには、Apple Apple TVの設定を変更する必要があります。

設定 > 一般 > iTunes Store > ビデオの解像度

で、標準解像度とHDの選択ができます。HDにしていると高解像度のコンテンツがある場合には、HDが優先されてしまいます。前述した『告白』も標準解像度では300円、高解像度だと400円となっているます。この100円の差をどうみるかは個人の価値観ですが...。

HD画質で300円~500円、SD画質で200円~400円というレンタル料金も小さな画面で観るだけでは不満となりますが、自宅に居るままでテレビで観られるのであれば、DVDレンタルと比べても遜色ない価格帯ではないかと思います。

AppleTVをテレビに接続する


Apple Apple TV の接続は非常にシンプルです。Wi-Fi環境があれば、電源をつなげて、TVとHDMIケーブルで接続するだけです。勿論、有線LANでも接続可能です。HDMIケーブルは同梱されていないので別途購入する必要があります。接続方法は簡単でWi-Fi環境があれば、HDMIケーブルでテレビに繋げるだけす。Wi-Fi環境がなければ、AirPlayな生活(AirMac Express)で紹介したAirMac Expressなどを使ってWi-Fi環境の構築が必要です。

アップルコンピュータ AirMac Express ベースステーション with Air Tunes MB321J/A
アップル (2008-03-31)
売り上げランキング: 9511


Apple TVで観られるコンテンツ


購入当初は、YouTubeと映画ぐらいしかコンテンツがありませんでしたが、OSがアップデートされコンテンツが徐々に増えてきました。といってもappleがいう“見たいものしか映さないテレビにしよう。”というには、まだほど遠い感じがします。特に日本の大半のユーザにとっては、NHL.TVもMLB.TVも関係ありません。Wall Street Journal Liveも英語ですし、VimeoFlickrといわれてもあまり響くものがありません。それでもPodcastもが観られる(聴ける)ようになったりと徐々に改善はされています。自分もぽっどきゃすてぃんぐ落語【びでお】はお気に入りに登録しています。

Air Playで楽しむ


Apple TVは単体でも利用できますが、やはりiPhoneやiPadと連携して利用するのがおススメです。先ずは、下記のアプリケーションをインストールしましょう。本体では、YouTubeや映画の検索で日本語の入力ができませんが、Remoteを使うと日本語で検索できるようになります。

Apple TVで映画を検索

またAir Playに対応しているアプリであれば、iPhoneやiPadで再生している動画をテレビに映すことができす。GoodReaderでダウンロードした動画を観られるし、PandoraTV や GyaO! の動画もテレビで観ることができます。GyaO!は、PC版よりもかなりコンテンツが制限されているし、有料版も視聴不可です。

HuluをApple TVでみる

Hulu(フールー):海外の映画・ドラマが月額980円で今すぐ見放題!今すぐ無料視聴!は、米国発のオンデマンド動画配信サービスで、海外ドラマ好きには堪らないサービスです。日本では月額1,480円 980円(2012年4月から価格改定)で有料サービスのみ展開しています。iPhone, iPadアプリも提供されていますが、残念ながらAirPlayに対応していません。Huluに対応したテレビ(SONY BRAVIA 40V型液晶テレビ KDL-40EX500)も発売されているのですから、是非、iOSアプリをAirPlay対応にアップデートしてもらいたいです。

SONY BRAVIA 40V型液晶テレビ KDL-40EX500
ソニー (2010-02-25)
売り上げランキング: 11541

現時点でHuluをAppleTV経由でテレビに映すには、AirPlayのミラーリング機能を使うしかありません。ミラーリング機能は、iPad2若しくはiPhone4Sのみ対応しています。
Apple TVでHuluを視聴できるようになりましたので、AirPlayを使う必要がなくなりました。


ミラーリング機能を有効にするためには、Apple TVのOSが4.4以上でなければなりません。OS4に更新してからは、アップデートの自動通知がありますが、それ以前のバージョンは手動で一度、更新しなければなりません。

設定 > 一般 > ソフトウェアをアップデート

で、更新可能です。ミラーリング機能をオンにして、Huluのアプリを起動すれば、AppleTV経由でテレビでHuluを視聴することが可能になります。

iPad2をミラーリングしてHuluをテレビで視聴

Apple iPad2 Wi-Fiモデル 32GB ホワイト
アップル
売り上げランキング: 15988
2011年11月18日

Tiny TextMinerでテキストマイニング(その2)

随分と前にTTM: TinyTextMiner でテキストマイニングで、無料のテキストマイニングツールについて紹介をしましたが、最近になってまた使ってみています。TTMは、辞書機能を備えているので、形態素解析器の辞書にない語彙をキーワードとして登録したり、同義語の定義をしたり、不要な語を削除することが容易にできます。テキストマイニングで一番大切な作業はこの辞書の整備だったりもします。

Tiny Text Miner については、以前下記のように紹介しています。
Tiny TextMinerとは、大阪大学大学院経済学研究科 松村研究所の松村真宏氏が公開しているフリーのテキストマイニングツールです。形態素解析にMeCabを利用して、単語の出現頻度と出現件数(単語を含むサンプル件数)を出力します。また係り受け解析のCaboChaと連携して係り受けによる、出現頻度と出現件数を出力することもできます。
現時点での最新版は、バージョン 0.75 (for Win)です。

Tiny Text Minerのインストール

TTMのインストール先は任意です。TTMは、形態素解析器としてMeCabを利用していますので、日本語のテキストマイニングをするのであればMeCabのインストールは必須です。また係受け分析も行うのであれば、CaboChaのインストールが必要になります。

ソフト名ダウンロード先補足
Tiny TextMinerttm.exeTiny TextMiner本体
MeCabmecab-0.98形態素解析器
文字コードは「Shift-JIS」を選択
CaboChacabocha-0.53.exe係り受け解析器

データクレンジング

本家のサイトでもFAQとして記載されているものもありますが、Tiny Text Minerを使う上で、事前にテキストマイニング対象のテキストをクレンジングする必要があります。
  1. 空白行の削除
  2. Excelセル内の改行の削除
  3. 半角文字を全角に小文字を大文字に変換
  4. 機種依存文字の削除
a. 空白行の削除

TTMでは空白行があると処理できませんので、対象テキストで空白のものがあれば削除します。

b. Excelセル内の改行の削除

Excelセル内で改行されている(Alt+Enterでセル内で改行)場合も正しく処理できません。TTMのFAQでは、Excelの=CLEAN()関数を利用して改行を削除とありますが、多くの場合、改行の位置は文字区切りの位置でもあります。置換で改行をスペースに変換した方が、語の区切り目を正しく認識してくれます。またスペースは全角でなければ語の区切り文字として認識してくれません。Windowsでは改行がCTL+Jで入力できるので置換と検索で改行を全角文字に置換します。


改行の入力
検索する文字列(N)のリストボックスにカーソルがある状態でCtrlキーとJを同時に押します。見た目上は何も変わらないので複数回入力してしまうと変換できなくなってしまうので、正しく変換されないと思ったら検索する文字列で違う文字を入力するか、Excelを再起動してやり直してください。

全角スペースの入力
置換語の文字列(E)のリストボックスにカーソルがある状態で、全角スペースを入力します。

テキストが入力されている列を選択して検索と置換で「すべて置換」とすると改行が全角スペースに変換されます。


半角と全角スペースで置換した場合と、=CLEAN()関数でスペースがなしと場合で、Tiny TextMinerでどのように形態素解析されるかを試してみます。

zou.csv(入力データ)
1アフリカゾウ インドゾウ← アフリカゾウとインドゾウの間は半角スペース
1アフリカゾウ インドゾウ← アフリカゾウとインドゾウの間は全角スペース
1アフリカゾウインドゾウ← アフリカゾウとインドゾウの間にスペースなし

zou_ttm1.csv(出現頻度)
タグ品詞品詞細分類出現頻度
1インド|ゾウ複合名詞複合名詞1
1アフリカ|ゾウ|インド|ゾウ複合名詞複合名詞1
1アフリカ|ゾウ複合名詞複合名詞1

半角スペースの行が正しく処理されなかったため、インド|ゾウ、アフリカ|ゾウの出現頻度は1となっています。また入力3行目がアフリカゾウとインドゾウの間の改行を=CLEAN()関数でスペースを削除した結果だとすると、アフリカ|ゾウ|インド|ゾウという1語になってしまっていることがわかります。

c. 半角文字を全角に小文字を大文字に変換

英数数字、記号を日本語として扱うために全角変換をします。勿論、上記の半角スペースも全角スペースに変換されます。変換は、Excelの関数で簡単にできます。

=JIS()  半角文字を全角に変換する
=UPPER()  大文字に変換する

上記を組み合わせて=UPEER(JIS(A2))のようにすれば全角大文字変換ができます。


c. 機種依存文字を削除する

Tiny Text Minerでは、機種依存文字があると正しく処理されないために機種依存文字を除く必要があります。代表的な機種依存文字は下記に示しますが、丸数字やローマ数字は、一般的によく利用されているので気を付ける必要があります。

代表的な機種依存文字
機種依存文字を削除するにはExcelの=SUBSTITUTE()を使って削除することもできますが、かなりネストが深い構造になります。

①~⑳までを削除する
=SUBSTITUTE(SUBSTITUTE(SUBSTITUTE(SUBSTITUTE(SUBSTITUTE(SUBSTITUTE(SUBSTITUTE(SUBSTITUTE(SUBSTITUTE(SUBSTITUTE(SUBSTITUTE(SUBSTITUTE(SUBSTITUTE(SUBSTITUTE(SUBSTITUTE(SUBSTITUTE(SUBSTITUTE(SUBSTITUTE(SUBSTITUTE(SUBSTITUTE(B2,"①",""),"②",""),"③",""),"④",""),"⑤",""),"⑥",""),"⑦",""),"⑧",""),"⑨",""),"⑩",""),"⑪",""),"⑫",""),"⑬",""),"⑭",""),"⑮",""),"⑯",""),"⑰",""),"⑱",""),"⑲",""),"⑳","")

Ⅰ~Ⅹまでを削除する
=SUBSTITUTE(SUBSTITUTE(SUBSTITUTE(SUBSTITUTE(SUBSTITUTE(SUBSTITUTE(SUBSTITUTE(SUBSTITUTE(SUBSTITUTE(SUBSTITUTE(B3,"Ⅰ",""),"Ⅱ",""),"Ⅲ",""),"Ⅳ",""),"Ⅴ",""),"Ⅵ",""),"Ⅶ",""),"Ⅷ",""),"Ⅸ",""),"Ⅹ","")


※簡単にできる方法があれば教えてください。

実行上の注意点

入力データのクレンジングが終わり、これでやっとTiny Text Minerを実行できるようになりますが、使用上の注意事項が幾つかあります。

出力フォルダ
Windows7環境だと出力フォルダに指定するフォルダ名が日本語パスがあると指定できません。入力ファイルや辞書ファイルのパスでは問題ありません。


抽出される語は1,000件まで
TTMのクロス集計表(ttm3~ttm6)で抽出される語は1,000語までです。出力結果が1,000語を超える場合には、語の出現頻度/出現件数の最小値を2件以上にして調整しなければ解析対象に全語が含まれなくなります。

不要語に指定するのは原型
不要語を削除する場合には、TTMで形態素解析された結果の語(原型)を指定しなければなりません。下記の場合、「行った」を不要語とした場合は、原型の「行く」を指定しないと削除できません。

zou.csv(入力データ)
1象を見に動物園に行った
1動物園にキリンを見に行った

zou_ttm1.csv(出現頻度)
タグ品詞品詞細分類出現頻度
1動物|園複合名詞複合名詞2
1見る動詞自立1
1行く動詞自立2
1キリン名詞一般1
1名詞一般1

Let's Try Tiny TextMiner