Translate

Post Date:2009年1月18日 

茶筌でテキストマイニング(辞書の登録)

最近では、アンケート調査結果の自由回答文をテキストマイニングツールを用いてテキストマイニングを実施するのが当たり前となっていますが、一番最初は、茶筌(Chasen)を使って単語の出現頻度を調べていました。設問を工夫すれば茶筌だけでもかなりの発見があります。

【設問】雑誌に掲載して欲しい記事は?

この場合であれば、名詞句を中心にカウントするだけでも発見はあります。

【設問】新製品の○○について味をひとことで表現すると?

この場合は、名詞句、形容詞句でしょうか。

ここでは、当時お世話になった茶筌についての利用方法について掲載しておきます。


茶筌 version 2.1 for Windows のインストール

茶筌(Chasen)とは、奈良先端科学技術大学院大学松本研究室で開発された形態素解析のツールです。Windows版も提供されています。こちらから「cha21244sp5.exe」がダウンロードできます。


茶筌の実行

WinCha 2000を起動して「テキストマイニングとマインドマップについて考える」と文章を入力して実行した結果が下記になります。(チェックは、表層語と品詞です。)

辞書登録前の実行結果

「データマイニング」は、「データ」と「マイニング」にマインドマップは、「マインド」と「マップ」に分解されています。これは、茶筌(Chasen)の辞書には、「データマイニング」や「マインドマップ」が一語として登録されていないからです。またGoogleやYahooなどは、未知語となります。

このままでは、品詞ごとに単語の出現頻度をカウントするのにもちょっと不便です。

茶筌(Chasen)の辞書登録

そこで、自分で辞書を作成して登録必要があります。辞書登録はコマンドベースのツールしか提供されていませんので、以下の手順で実施してください。


辞書ファイルのダウンロード

茶筌(Chasen)は辞書としてIPA品詞体系を利用していますので、IPADICをダウンロードします。気をつけなければならないのは、IPADICのバージョンです。最新版の辞書もリリースされていますが、WinChaで辞書作成では、こちら からipadic-sjis-2.5.0.zipをダウンロードしてください。


辞書ファイルの展開

c:\Program Files\chasen21 の下にMyDicフォルダを作成します。MyDicにipadic-sjis-2.5.0から下記の4ファイルをコピーして下さい。

connect.cha(連接表ファイル)
grammar.cha(品詞定義ファイル)
ctypes.cha(活用型定義ファイル)
cforms.cha(活用形定義ファイル)

次にipadic-sjis-2.5.0の中にある,Makefile.bat をc:\Program Files\chasen21 にコピーします。


辞書作成実行ファイルの変更

Makefile.batをメモ帳などで開いて、MyDicフォルダで処理をして、作成辞書名をMyDicにするように下記のように内容を変更します。

8行目
変更前:cd dic
変更後:cd MyDic

33行目
変更前:..\mkchadic\sortdic chadic.txt chadic.int
変更後:..\mkchadic\sortdic chadic.txt MyDic.int

40行目
変更前:..\mkchadic\pattool -F chadic
変更後:..\mkchadic\pattool -F MyDic 

辞書登録

MyDicフォルダの下にMyDic.dicというファイルを作成します。ここに下記の辞書内容を定義します。

c:\Program Files\chasen21\MyDic\MyDic.dic
(品詞 (名詞 一般)) ((見出し語 (データマイニング 5000)) (読み データマイニング)) (品詞 (名詞 固有名詞 一般)) ((見出し語 (マインドマップ 5000)) (読み マインドマップ))

辞書作成

Windowsのスタートメニューにある「ファイル名を指定して実行」でcmdと入力して、コマンドプロンプトを立ち上げます。

プロントでcd c:\Program Files\chasen21 と入力してEnterキーを押してください。C:\Program Files\chasen21と表示されますので、続いてmakefileと入力してEnterキーを押すと辞書ファイルの作成が始まります。

下記のように最後にchasen dictionary copiled successfully.と表示されると辞書ファイルの作成は終了です。exitと入力してコマンドプロンプトを終了させます。


再生した辞書ファイルの登録

MyDicフォルダを参照すると下記の4ファイルが作成されています。

MyDic.in
MyDic.pat
matrix.cha
table.cha

この中のMyDic.intとMyDic.patをc:\Program Files\chasen21\dicにコピーします。


MakeFile.bat に上記2ファイルをコピーする記述(赤字部分)を追加すると便利です。

@echo pattool...
..\mkchadic\pattool -F MyDic
if errorlevel 1 goto ERROREXIT

@echo copy jisho-files...
copy /y mydic.pat ..\dic\
copy /y mydic.int ..\dic\

cd ..


環境設定ファイルの変更

茶筌が新たに作成した辞書を参照できるようにc:\Program Files\chasen21\dicにあるchasenrcの内容を変更します。

2行目
変更前:(PATDIC        chadic)
変更後:(PATDIC        chadic MyDic)

これで新しく作成したMyDic辞書も参照されるようになります。WinCha 2000を起動して先程と同様に

「テキストマイニングとマインドマップについて考える」と文章を入力して実行します。

今度は、データマイニングもマインドマップも登録した辞書に従い、一語として認識されます。

辞書登録後の実行結果

関連するブログ(茶筌でテキストマイニング);

関連するブログ(茶筌でテキストマイニング);

Post Date:2009年1月11日 

SONY VGF-WA1をインターネットラジオチューナーとして使う(その2)

SONY VGF-WA1にお気に入りのラジオ局を登録する
SONY VGF-WA1をインターネットラジオチューナーとして使う(その1)」でVGF-WA1本体のファームウェアのアップデートと無線LANへの接続手順までを記しましたが、ファームウェアのアップデートで20局までインターネットラジオ局を登録をすることができます。他の機種と比べて20局は少ないように思えますが、実用性を考えると20局でも十分かと思います。SHOUTcast形式に対応しているのでお気に入りの、ラジオ局をSHOUTcast RADIOで探して登録してください。
 
SHOUTcast RADIOで検索
SHOUTcast RADIOを直接開くか、「ワイヤレスデジタルオーディオ設定ツール」で「ウェブラジオ聞くには」を選択し、「SHOUTcast.comページ」を選択すると、ブラウザでSHOUTcast RADIOが開きます。Search for Station / Genre:と記載された検索窓に「80's」や「JAZZ」と入力してサーチすると様々なインターネットラジオ局が検索できます。また検索結果のBitrate:をBroadbandを選択すると128kbps以上でフィルタリングできます。音質を考えると128kbps以上がお勧めです。

 

ラジオ局のURLを確認する
SHOUTcast RADIOの検索結果から「TUNE IN!」を選択してください。RealPlayerの場合、インターネットラジオ局に接続をして、左下の鉛筆マークをクリックするとクリップ情報の編集画面が開きます。この画面のファイル名に記載されているのがURLとなります。「お気に入り」に一度登録してから「お気に入りを管理」で登録されたお気に入りのラジオ局を右クリックでプロパティを見ると、リンク先に記載されているhttps://以降に、URLが記述されていますので、コピペする場合にはこちらの方が便利です。


(7)VGF-WA1にインターネットラジオ局を登録する
 「ワイヤレスデジタルオーディオ設定ツール」から「ウェブラジオ聞くには」を選択し、「任意のラジオ局を登録します」を選択すると、接続可能なVGF-WA1が表示されます(例は2台)。ラジオ局を登録するVGF-WA1を選択すると下記右のウェブラジオ設定画面がブラウザで開きます。登録は前述の20局まで可能です。SHOUTcast RADIOで調べた表示名とURLを入力して、保存をすれば、VGF-WA1本体で「登録したラジオ局」が聴けるようになります。



お勧めのインターネットラジオ局
BGMとしての最適なインターネットラジオ局を掲載しておきます(個人的趣味です)。URLについては、時々変更される場合がありますので、VGF-WA1で接続できなくなったらSHOUTcast RADIOで再度検索して、登録されているURLを変更してください。

新しい音楽はよくわからないので、80年代のロックやポップス、Jazz系などを中心にBGMとして愛用しています。変わり種としては、アカペラ専門の1.FM(ワン・エフエム)のAcappella専門チャンネル、映画音楽(クラシック中心)のCINEMIXやハワイアンを奏でるHawaiianRainbow.comなどでしょうか。また嘗てOfra HazaNajmaなどが流行った時期にイスラム圏の音楽も耳にしていましたが、Apna eRadio Islamic Channelなどを聴くと異国情緒にあふれています。究極としては、コーランを専門に流しているLiveQuraan.comでしょうか。コーランを聴くと映画「エクソシスト」の冒頭の発掘現場のシーンがどうしても頭に浮かんできます。

BGMに最適なインターネットラジオ局一覧
ラジオ局 URL 説明
181.fm-The Heart (All Love Song) http://98.124.140.132:8040 ラブソング
Slow Radio http://98.124.140.132:8040 80'sのポップス中心
Magic Radio-80's Hits http://194.158.114.66:8100 フランス発の80's
Jazz Piano Trio http://203.152.192.105:9030 ジャズピアノ
SKY.FM-Piano Jazz http://208.122.59.30:7814 ジャズピアノ
SKY.FM-Modern Jazz http://205.188.215.227:8008 モダンジャズ
1.FM-Acappella http://64.71.184.99:8662 アカペラ専門
CINEMIX http://38.103.173.111:8042 映画音楽
HawaiianRainbow.com http://85.17.174.181:8040 ハワイアン(64kbps)
Apna eRadio Islamic Channel http://67.15.74.91:8200 イスラム音楽(96kbps)
LiveQuraan.com http://212.241.210.114:8088 コーラン(32kbps)
Post Date:2009年1月10日 

SONY VGF-WA1をインターネットラジオチューナーとして使う(その1)

VGF-WA1の生産終了
インターネットラジオチューナー」で掲載したSONY Wi-Fi オーディオ ホワイト VGF-WA1/Wですが、残念ながら生産を終了してしまったようです。まだAmzonなど一部のECサイトでは、商品を扱っていますので、インターネットラジオチューナーに興味があるのであれば推奨します。

何人かの友人にも勧めて買わせてしまったVGF-WA1ですが、正月に家電量販店に足を運んだときに現品限りで販売されていたので、リビングにも置こうとブラックボディーのSONY Wi-Fi オーディオ ブラック VGF-WA1/Bを購入しました。

また年末にVGF-WA1購入をした友人からインターネットラジオを聴くための設定方法がわからないといわれていたので、2台目の設定を兼ねながら設定方法を記載しておきます。無線LANの環境下を前提としているので、無線LAN環境がない場合には、付属のワイヤレスアダプタの設定も必要となります。

インターネットラジオチューナーとしての設定

※付属のCD-ROMはインストールしない!

製品のコンセプトがWi-Fiオーディオということもあり、付属の「ワイヤレスデジタルオーディオおまかせ設定CD-ROM」では、SONYのオーディオ関連プログラムをインストールしようとします。しかし、単純にインターネットラジオチューナーとして利用するのであれば、これらのプログラム群は必要ありません。

VGF-WA1ファームウェアのアップデート

(1)アップグレードプログラムの実行

同梱されているアップデートプログラムCD-ROMか、「VGF-WA1 ソフトウェア」アップデートプログラムからダウンロードしてSOFOTH-01589600-UN.exeを実行してください。

(2)VGF-WA1 ファームウェアのアップデート
下記のメッセージが出力されたら付属のUSBケーブルでVGF-WA1とPCを接続します。


本体に「USBケーブル接続中」と表示されてから「次へ」をクリック、
下記のワーニングが出力されますが、そのまま「続行」をクリックします。
 

本体との接続が確認されると、アップデートの開始です。


アップデートが完了すると下記のメッセージが出力されますので、説明通りにケーブルを外して電源を一旦切ってから再始動させます。これでファームウェアのアップデートは完了です。


VGF-WA1を無線LANに接続する

(3)無線LANへの接続

※MACアドレスで無線LANの接続を制限している場合は、VGF-WA1本体で事前にMACアドレスを確認して登録する必要があります。

VGF-WA1の電源を入れて本体とPCを付属のUSBケーブルで接続します。次にアップデートプログラムによってインストールされた「ワイヤレスオーディオ設定ツール」を起動して、「ネットワークにつなぐには」を選択します。

 

「アクセスポイントとつなぐには」を選択


「次へ」を選択



現在、認識可能な無線LANのネットワーク一覧が表示されます。自分で管理しているネットワーク名(SSID)を選択してください。



無線LANを暗号化している場合は、WEPの種類とキーの設定をします。暗号化していない場合は、「なし」の選択になります。

 

IPアドレスが自動割り付けされるので問題がなければ、「かんたん」を選択します。



「次へ」を選択



「次へ」を選択



これでVGF-WA1が無線LANに接続できるようになります。


(4)接続の確認とその他の設定
本体とPCを接続したUSBケーブルを外して、本体の「WEB RADIO」のボタンを押します。本体のパネルで「ネットワークに接続しています」と表示されて、J-WAVE Brandnew-JLive365SHOUTcastが表示されます。J-WAVE Brandnew-Jを最初に本体で性別、年齢、居住地の入力が必要になります。これで一応インターネットラジオが聴けるようになりました。
続いてVGF-WA1の時計をNTPサーバで同期させるように設定です。「ワイヤレスオーディオ設定ツール」の「WA1の環境設定をするには」を選択します。



「使用可能な機器を検索しています...」の後に、接続可能なVGF-WA1が表示されます。今回は2台目の設定なので、下記の「ワイヤレスデジタルオーディオ検索」画面で2台のVGF-WA1が表示されています。設定を行う、VGF-WA1をダブルクリックします。



ブラウザが起動して、「ワイヤレスデジタルオーディオ設定」の画面が表示されます。上部メニューから「時計設定」をクリックして、「 自動的に時計合わせをする」をチェックすればO.K.です。

  


これで設定は完了です。

象と散歩:人気の投稿(過去7日間)