2009年12月31日木曜日

沖縄の三線を奏でる

このエントリーをはてなブックマークに追加
昨年のクリスマスにサンタクロースが我が家に三線(san-shin)を届けてくれました。

三線とは沖縄の三味線で、その独特の音色は心に響きます。本来、楽器は基礎からの練習が必要なのでしょうが、我流で適当に弾いて楽しんでいました。我流に走った理由のひとつが、最初に買った教則本にあります。三線の楽譜は工工四(クンクンシ)といって、漢字表記の楽譜です。

例えば、安里谷ユンタの出だしは、
|中|工|七|合|七|合|七|七|五|工|四|上|中|工|合|工|合|五|工|○|

となります。これって挫けます(涙。

三線はその名の通り、三本の弦で、チューニングはC(ツェー)F(エフ)C(ツェー)です。これを工工四で記載すると、合四工となります。しかし、合四工と書かれても読み方すらわかりません。

知名定男の三線入門

本屋の雑誌コーナーで、NHK 趣味悠々 めんそーれ!知名定男の三線入門 を見つけました。知名定男氏といえば、あのネーネーズをプロデュースした方です。手にとって見ると、工工四だけではなく、TAB譜も記載されています。

TAB譜は、弦、音の高さ、長さを簡単に表してくれるものです。これは、いいと早速購入。放送は第2回の再放送から見ました。

NHK趣味悠々めんそ~れ!知名定男の三線入門教育テレビ放 送 毎週水曜日 午後 10時00分~10時25分再放送 翌週水曜日 午後 (昼)0時00分~0時25分

TAB譜表記は、とても分かりやすく、前述の安里谷ユンタは、TAB譜で表記するとこんな感じです。



第4回の放送が終了した時点ですが、工工四も自然と覚えることができました。また唄三線として、唄うことを前提とした初心者向けのアレンジはとても分かりやすく、唄ってみようという気にもなれます。

今回の教則本で学んだことは、まず三線の基本的なツボ(ポジション)は12個ありますが、この呼び方を初めて知ったことです。また薬指を使わないことも知りました。馴染めなかった工工四もTAB譜を見ながら弾いているうちに次第に覚えることができました。

開放弦:
合(アイ)、四(シ)、工(コウ)
人差し指:
乙(オツ)、上(ジョウ)、五(ゴ)
中指:
老(ロウ)、中(ナカ)、六(ロク)
小指:
尺(シャク)、七(シチ)、八(ハチ)

そしてなぜ工工四に馴染めなかったのか、その理由がわかりました。自分が譜面を見ながら三線を弾こうとすると、工工四の譜面を見て、まずドレミに置き換え、更に弾くときのポジションをドレミに置き換えるという変換処理を2回入れていたのです。これはとても非効率です。


三線を弾くときには、CFCで考えるより、上記のように合四工と捉えるべきであることを学びました。その足がかりとなったのは三線タブ譜です。「ギターのTAB譜と工工四(クンクンシー)をチャンプルして、より簡単に三線が弾けるよう工夫された新しいスコア」とありますが、嘗て、ギターやベースを弾いていた輩であれば三線TAB譜は非常に理解しやすいものです。


amazonで検索してみると、三線TABで記載された楽譜を見つけました。今度購入してみようと思います。

沖縄三線で弾く 島唄 弾き語りベスト20

沖縄三線で弾く 島唄 弾き語りベスト20 Vol.2

沖縄三線で弾く 島唄 弾き語りベスト20 Vol.3

ドレミ楽譜出版社からで何れも価格は、¥1,680です。

eラーニングで三線

三線TAB譜での練習ではありませんが、インターネット三線教室 沖縄三線教室 というのがありました、ヘルプをみる限り、動画の閲覧で、全体、右手、左手をスロー再生でき、見て聴いて覚えるという形式のようです。工工四は別売なのでしょうか?180日で6000円とありますが、もう少し丁寧に受講システムについて説明をすればよいのにと歯がゆさを感じます。

三線を始めよう

2010年、新年を迎えるにあたり、楽器を始めてみようと考えている方は、三線にチャレンジしてみてはいかがでしょうか。

三線の価格はピンキリですが、3万円の三線がセットになって¥21,800で販売されている KC SSN-300 三線 教則DVD付き入門セット などは、お手頃です。

商品の説明
KC SSN-300 三線 教則DVD付き入門セット 沖縄を代表する楽器三線の入門セットです。教則DVDやクリップチューナーも付いており、これから三線を始めようという方に最適です。 棹(ソー):橡牙木 胴(チーガ):想思木(合皮) 糸巻き(カラクイ):黒花檀木 セット内容 本体 ソフトケース ハードケース 爪(チミ) 駒×2(牛骨、竹) 弦 予備糸巻き(カラクイ)×1 松脂 三線教則DVD「楽しい沖縄三線教室」 クリップチューナー ※松脂はからくいの滑り止めに使用するために付属しております。ペグが張力に負けて戻らないのを防ぐためです。 ※三線の糸巻き(からくい)は折れやすく消耗品扱いとなるため、予備が1個付属する形となっております。 三線本体定価 31500円(税込み)

楽器は価格によって音色が明らかに異なります。勿論、高い楽器を最初から手に入れることができるのであれば、それに越したことはありません。しかし、初心者が手軽に三線を始めるのであれば、上記のようなセットから初めてみるのがよいかと思います。

ネットで三線を探すにあたって思ったのですが、人口皮か本皮の違いは分かっても1万円の三線と3万円の三線の音の違いがわかりません。ネットで楽器を販売するのであれば、当該楽器を使用した演奏などを音声ファイルとしてアップしてもらえるとわかりやすいと思うのですが、そういうショップはありませんでした。

2009年12月14日月曜日

ネットでみるエギング

このエントリーをはてなブックマークに追加
土曜日に房総にエギングに出かけようと思いましたが断念。予報では明け方の風速2mだったのが、3時に起床して天気予報をみると風速5mでした(涙。

ということで、ネットでエギングの動向を調べてみました。以前、「エギング」に関するブログの書き込みと検索について「ブログ・リサーチの活用方法」で触れましたが、その続編です。

Google Trends を使う

Googleトレンド で検索語のトレンドの推移をみてみます。Googleトレンド とは、入力した検索キーワードの検索ボリュームの増減を時系列で確認することができる無料ツールです。また関連するニュースと参照数もあわせて表示されます。

下図は、Googleトレンドで「エギング,アオリイカ」で検索した結果です。


Googleトレンドの数値は、指数化された値です。指定された期間の平均が1.0となります。また複数のキーワードを指定した場合は、キーワードの検索数を相対的に比較することができます。

上記の場合は、「アオリイカ」というキーワードは「エギング」の1.12倍検索されているという意味になります。但し、単年毎に見ていくと、2008年にはエギングが逆転し、「アオリイカ」=「エギング」へとの変遷が判ります。

エギングとアオリイカの検索トレンド推移
エギング アオリイカ
2009 1.00 0.82
2008 1.00 0.88
2007 1.00 1.06
2006 1.00 1.60
2005 1.00 1.70
2004 1.00 9.50

Google Trends による「エギング」のトレンド

エギングのトレンドをGoogleトレンドで見てみます。「春イカシーズン」と「秋イカシーズン」で大きな山があり、秋>春でという関係がわかります。2009年のエギングの検索ボリュームは、2008年とほぼ同様です。


続いて Google Insights for Search でも「エギング」について調べてみます。いつの間にか日本語化され、「世の中の検索トレンドを徹底分析」というのが、謳い文句になっています。下記は「エギング」で検索をし、カテゴリを趣味とリクリエーションに絞った結果です。


Google Insights for Searchの数値は、最大値を100とした数値となります。上記では2008年9月がピークで100です。2009年「秋イカシーズン」をみると2008年よりも下降している傾向が伺えます。またCSVでデータを落とすと週別のデータが取得可能です。

エギング検索トレンド(週別)

週別にデータを見ると、どの週が検索のピークになっているかをみることができます。通常の秋シーズンでは、10月初旬が検索のピークでしたが、2009年は例年よりも早く9月20日週がピークとなっています。また期間を通しての最大値も月別では2008年9月でしたが、週別にデータをみると2009年9月20日週が最大値となります。

前年との比較

Google Insights for Searchでは期間の比較もできます。下記は2008年と2009年のエギングの検索を時系列的に比較したものです。年間の平均値はでは2009年の方が上回っていますが、秋イカシーズンをみると2008年を下回っています。実際に9-11月の3ヵ月を比較すると平均値でも2009年が下回っていることを確認できます。

上記から仮説として、2008年にエギング人気がピークとなり、そのまま春シーズンに突入。しかし、実際には釣果が上がらず、結果、2009年の秋イカシーズンで離反しているということでしょうか。

人気検索クエリ

Google Insight for Search では、人気クエリが下部に表示されます。どのようなロジックで関連するキーワードを算出しているのかは分かりませんが、エギングロッドが「最上位」となります。

「ロッドの購入検討」 → 「仕掛けの調査」 → 「釣り方の調査」 という順番は何となく納得ができます。

2009年「エギング人」気検索クエリ
1. エギングロッド 100
2. アオリイカエギング 95
3. エギングアオリイカ 90
4. アオリイカ 90
5. エギングポイント 50
6. イカエギング 50
7. エギング仕掛け 45
8. エギ 45
9. エギング釣り方 40
10. 動画エギング 35

過去90日の「エギング」人気検索クエリは、こんな結果になります。


注目検索クエリ

また注目検索クエリも表記されます。2009年の「エギング」注目検索エントリは、「ライトエギング」が1位です。

2009年「エギング」注目検索クエリ
1. ライトエギング +500%
2. エギングロッドランキング +190%
3. エギング仕掛け +90%
4. 福岡エギング +70%
5. エギング福岡 +70%
6. アオリイカ仕掛け +70%
7. エギング釣り方 +60%
8. エギング結び方 +60%
9. エギングブログ +50%
10. 釣り情報 +40%

過去90日の「エギング」注目検索クエリは、こんな結果です。

「ライトエギング」のトレンド

ライトエギングについては、Google Insights for Search でライトエギングを調べてみると検索結果が検出されているのは、2009年6月、YAMASHITA(ヤマシタ)のライトエギング専用ロッドNaory(ナオリー)の発売以降です。ライトエギング専用ロッドナオリーや、レンジハンターのような小さなサイズのエギが発売されたことによって認知されていく様子がわかります。



ヤマシタ ナオリー(YAMASHITA NAORY)Feeling Shaft LT762ML
●MAXエギ:2.7号
●ライン:0.4~0.8PE
●長さ:7フィート6インチ
●長さ:2.29m
●セクション(継数):2本
●仕舞寸法:1.17m
●先径:1.9mm
●元径:9.6mm
●カーボン含有量:95%
●グラス含有量:5%
●ガイド個数:10個
●標準自重:116g
●価格:19,425円(ナチュラムも同価格)
NAORY Feeling Shaft LT762ML


ナオリーレンジハンターを操る、ライトエギング専用ロッド!新たなるエギングスタイルを提唱する為、今までのエギングの概念を捨て開発されたライトエギング専用設計!現在のアオリイカ用のエギングロッドには、エギを自在に操作して掛ける事に重点が置かれているが、ライトエギングはエギの操作性プラス、ターゲットがエギに触る微細なシグナルを感知する感度も合わせ持ったロッドが不可欠となっている。そこで、NAORY FEELING SHAFTは、高感度設計でツツイカ独特のモタれるような、アタリも感じ取る事ができる。またエギングロッドの主流であるファ・ーストテーパー(8:2調子)と異なり、身切れの多いツツイカ類をキャッチする為のレギュラーファ・ーストテーパー(7:3調子)。全モデル、ローライダーガイド(ステンレス)とLDBガイド(ステンレス)のPEコンセプト。VSSリールシートをダウンロック(逆付け)で採用。ライトエギングにおいて、最も汎用性の高いモデル。2.7号までのエギを思いのまま操る事が可能。ロッドアクションをそのままエギに伝えるファーストテーパーで、操作性と感度を合わせもったベーシックモデル。
ライトエギング専用エギ(ナオリー レンジハンター)

サイズ 重量 沈下スピード目安
1.8S 5.0g 10.0~12.0秒/m
1.8B 5.5g 3.0~3.5秒/m
2.2S 6.5g 7.0~9.0秒/m
2.2B 8.0g 2.2~2.7秒/m




小型のイカを狙うので、従来は2~2.5号の小型のエギを使用していました。ナオリーも同様にこれらのサイズに合わせて設計。ノセを重視な1.8号、遠投性を重視の2.2号の2種類のサイズを用意。もちろん釣れているイカのサイズによって、エギのサイズを使い分けもできます。また、シャロータイプ(S-type)とベーシックタイプ(B-type)のウエイトを用意。たとえばB-typeはエギ王Qの3.5号とほぼ同じスピード(約3.0~3.5秒/m)で沈下するのでアオリイカのエギングの時と同様の操作感覚でストレスなく操ることができます。

「エギング」の検索数

GoogleトレンドもGoogle Insights for Searchも検索の実数はわかりません。検索数は、Google AdWordsキーワードツールで調べられます。11月はエギングで165,000回検索されていることがわかります。

キーワード ローカル検索
ボリューム:11月
ボリュームの
最も多い時期
エギング 165,000 10月
アオリイカ 90,500 9月
エギ 49,500 10月
ライトエギング データ不足

過去の検索回数は調べることができませんが、Google Insights for Search の結果から逆算して求めることはできます。

Google Insight
for Search
検索回数
11月 52 165,000
10月 83 (263,000)
09月 91 (289,000)

今日の一曲


天才ベーシスト Jaco Pastorius(ジャコ・パストリアス)、ライブでベースソロとして、パーカッシブなプレイをロングディレイで繰り返して、その上からメロディーを重ねて演奏するというスタイルで偉才ぶりを発揮していました。このベースソロだけを集めた「honestly」というアルバムがUS版で発売されいて、欲しかった一枚でしたが、amazonで探すと出品者が結構な値段を付けています。

先日、iTunesで何気なく検索してみると、¥1,500で発売されていました。速攻で購入。脳みそブっ飛びです。

Jaco Pastorius
Honestly(Solo Live)  Jaco Pastorius - Honestly (Solo Live) iTunesで購入する

2009年12月8日火曜日

簡単テキストマイニング ExcelでKWIC (その3)

このエントリーをはてなブックマークに追加
ExcelでKWICを実現する「簡単テキストマイニング ExcelでKWIC」、「簡単テキストマイニング ExcelでKWIC(その2)」の続きとなります。KWICとは、KeyWord In Context の略で、キーワード前後の文章を抽出する技術です。

Excel KWIC

A B C D E F G
1 キーワード KWIC
2 文字数 20
3 出現位置 2
4
5 出現頻度 1st 2nd Befor KWD KWD After KWD 検索対象文章
6 2 1 51 キーワード前後の文章を抽出する技術です。 KWIC によって文脈を簡単に理解することができま KWICとは、KeyWord In Context の略で、キーワード前後の文章を抽出する技術です。KWICによって文脈を簡単に理解することができます。

前回は、F6セルのキーワードの後ろの文字列を取得するところまででした。今回は、キーワード前の文字列を取得します。

キーワード前も=mid()で文字列を切り出しますが、開始位置がキーワードのn文字分前となります。キーワードが2回目に出現した地点からB2(20文字)前は=C6-B2です。

=mid(G6,C6-$B$2,$B$2) ・・・①

しかし、上記でB2セルに60と入力すると開始位置が0以下(=52-60)でエラー(#VALUE!)となります。指定文字数(B2セル)がキーワード前の文字数よりも大きい場合は、1文字目からキーワード開始位置手前までの文字列を取得する必要があります。

=mid(G6,1,C6-1) ・・・②

このようにキーワード前の文字列が取得文字数よりも多いこと(開始位置-取得文字数>1)を確認してから、①か②を実行する必要があります。Excelでは条件分岐の=if()が利用できます。

=if(C6-$B$2>1,mid(G6,C6-$B$2,$B$2),mid(G6,1,C6-1))

次にB3セルに入力したキーワード出現位置によって開始位置を特定するために「簡単テキストマイニング ExcelでKWIC(その2)」で利用したindex()を同じ要領で利用します。

=if(index(B6:C6,$B$3)-$B$2>1,mid(G6,index(B6:C6,$B$3),$B$2),mid(G6,1,index(B6:C6,$B$3)-1))

これで完成です!

最初にも記載しましたが、今回のExcel KWICでは、文章の中でキーワードが複数回出現する場合の対応が冗長的な方法になってしまっています。今度、囓りかけたVBAを使って作成をしてみようと思いますが、Excelでも簡単にKWICが実現できるということを理解していただければ幸いです。

index()に関しては、利用例を下記に再掲しておきます。
A
B
C
D
E
1
アオリイカ
コウイカ
カミナリイカ
ジンドウイカ
ミミイカ
2
3

=index(A1:E1,2)

とすると、A1:E1までの中で2番目の内容が返ってくるので「コウイカ」となります。

=index(A1:E1,5)

は、ミミイカです。






2009年12月7日月曜日

房総エギング(11/28,12/5)

このエントリーをはてなブックマークに追加
今週先週と、2週続けて土曜日に館山方面にエギングに出かけました。

2009年11月28日 房総エギング

師匠曰く、今年はイカの成長が遅いのではないかと言っていたので、携帯したエギは2.0号~3.5号。正午前には出かけなければならないので、「朝まずめ」勝負です。

暗いうちは、風も結構ありましたが、有名な堤防に着くと釣り人がいっぱい。こんな人がいるところでは、エギングは無理と思いもう少し南下。

先日、「海釣りドライブマップ〈1〉東京湾~房総半島」を購入しました。いつもエギング出かける範囲はカバーしているので、いままで知らなかった場所にも行ってみようと思いきや、結局はいつもと同じです。

□海釣りドライブマップ<1>東京湾~房総半島
□出版社:つり人社
□サイズ:B4版
□価格:¥1,500+税

●詳細なポイント紹介
●釣具店、エサ屋、渡船屋の場所と電話番号を掲載
●シーバス情報も満載!






6時だと大部明るくなってきますが、まだ海中はハッキリは見えません。2.5号のピンク系のエギをキャストしていると、何かがエギに付いてくるのが見えます。エギを制止させると「キュン」とアタリがありました。先ずは1杯目をゲット。


辺りが明るくなると少し先にアオリイカが群れて漂っているのを発見。んー。今シーズンは偏光グラスさまさまです。ナチュラル色のエギに変更してキャストすると、その中の何杯かがエギをチェイスしてきました。

手前まで寄せて、十分に焦らしてからゆっくりとエギをフォールさせます。

アオリイカは通常泳いでいるときは、透明で少し白っぽく見えます。なので地方によっては「白いか」とも呼ばれていますが、エギをチェイスして興奮してくると右側の写真のように黒く変色します。

ヒットです。スミを吐いたので一瞬見えなくなりましたが、リールを捲いて水面にイカが現れると2杯付いています。初めての経験と興奮しましたが、水面からあげると1杯は離脱。残念。

結局、見えイカ狙いで、6時から7時半の1時間半で200~300g程度のサイズを5杯でタイムアップです。まだ本当はエギングを続けたかったのですが....。

2009年12月5日 房総エギング

今週、池袋で時間を潰す機会があったので、iPhoneのGoogleマップで釣具屋と検索。駅近くに上州屋があったのでベルトに付けられるようなエギケースがないかと立ち寄ってみました。

エギをケースごとなくしてしまってから、キャップを付けて荷物にそのまま詰め込んで持ち運んでいたのですが、エギの交換に時間がかかってしまいます。無論、エギを交換せずに同じものを使うエギンガーもいますが、自分はエギも場所もすぐに換えてしまいます。またラン&ガンでは手にエギケースを持っていると邪魔になります。

SHIMANOから条件に適合するようなエギケースが発売されていましたが、池袋の上州屋にはありませんでした。

シマノ(SHIMANO) PC-211E Sephia エギケース10S Lサイズ
M : 3×20.5×14cm ¥1,180
L : 4×24.5×16.5cm ¥1,250
注意)Mサイズの収納号数について2~3号でも針傘の径がφ16mm以上のものは、Lサイズをお使いください。Sephia Keen3号(EG-230E)、07SephiaZR についてもLサイズをご利用ください。



2号~3.5号すべてのエギが収納できて、出し入れが早くできるものが欲しい。ネットで探して購入しようかと思いましたが、ふと棚の下に目をやると、シマノ(SHIMANO)のエギストッカーⅡが置かれています。


シマノ(SHIMANO) WB-136B エギストッカーII

エギングタックルをシステム的にセットアップできる2代目エギストッカー。

●2.0~4.0号までのサイズが最大18個収納できるようサイズアップ
●フィッシングタオルなどの取り付けに便利なループ付
●ウエストベルトと着脱式ショルダーベルトの併用で体にしっかりフィット&がっちり固定
●可動仕切りで、小型のエギも取り出しがスムーズ
●取り出してそのまま洗える底部穴開き構造の内部ケース
●イカスミなどの汚れがしみ込まず簡単に拭き取れる、イージーメンテの特殊防水加工生地
●雨や潮が浸入しにくい被せブタタイプ
●ピンオンリールを取り付けても、キャスティング時に邪魔にならないピンオンリールホルダー
●濡れたエギを乾燥させるよう側面はメッシュ仕様(WB-136Bは本体とフロントポケットに装備)







腰に装着してみましたが、結構大きく感じます。やっぱりもう少し小さなものをと思いましたが、18本の餌木が収納できるということは、普段使っているエギが全部入りということです。暫く悩めど、お買い上げ。

昨日、実際に使ってみましたが、エギの出し入れは素早くできます。また前方のチャックには、ラインカッター、リード、エギスナップを入れました。装着具合も、お腹の前にケースを持ってくるとエギングをしている最中は、気にはなりませんでした。但し、ハードな移動(テトラを渡り歩く様な)の場合は邪魔になってしまうかもしれません。

閑話休題

先週、見えイカがまだいたので、サイト狙いで6時に現地到着。天気予報では徐々に風が強くなり、お昼からは雨となっていましたので午前中勝負です。海は澄んで底まで見えます。

エギングを開始して暫くすると、見覚えのある方が登場。

「しっ、師匠」

しかし、今日は大量のイワシを追いかけてきた鯖が見えます。港内をひと周りしましたが、視界の範囲ではイカを確認できません。やっと足下に子イカを発見し、エギをサイズダウンさせて狙うも敢えなくスミを吐かれてその姿を見失いました。

堤防中程のエギンガー(師匠ではない)がコウイカをヒット。

一杯も釣れないまま、師匠は、「これから北上する」といって去ってしまいました。自分も移動しようかと迷いましたが、風が強くなり天気が崩れるとの予報で、移動しても釣果は期待できません。ここでも徐々に風が吹き始めましたが、幸いにも追い風です。

取りあえず、食事と、腹ごしらえをしてから再チャレンジです。堤防先端が空いたのでそちらに移動。追い風で普段よりも遠くにエギがキャストできます。

2-3投し、テンションフォールでエギを落としていると、ラインが大きく引かれました。慌ててロッドを立てて合わせます。更にラインが大きく引かれて「ヂィィー」とドラグが鳴ります。これはデカイ。

何度かジェット噴射で抵抗されます。バラさないようにテンションを張ったままゆっくりとリールを巻いて寄せてくると、大きな「アオリイカ」です。

先週と同程度ならタモは要らないと思い、今日はタモもギャフも持っていません。足下であげようと試みますが、上がりません。苦戦しているように写ったのか、

「タモ貸そうか?」と、天使の声。ありがとうございます。



家に戻ってサイズを測ると760g。夢のキロアップには届かないにしても、いままで釣った中では、一番大きなアオリでした。(しかし、釣ったイカのサイズを測るようになるとは...。)

師匠にも弟子の勇姿を見て欲しかったです。

ちなみに今回のエギは、右写真のデュエル(DUEL) アオリーQ RS 3.0号 SAJ(シルバーアジ)です。サイトエギングの場合は、視認性の高いオレンジやピンクを使っています。今シーズンは、サイトでも水中の餌木が見えれば、ナチュラルカラー系を多用しています。

アオリイカの眼球自体は非常に優れ、構造的には色の識別が可能なようですが、脳が小さく、情報の全てを処理できず、色の判別もできないのではないかという学説があります。オレンジやピンクなどのエギを抱いてくるのも、色の識別ができないからと考えた方が自然です。アオリイカが、エギの形、動き、光の反射加減でエサと間違えているのであれば、なるべく餌となる魚に似ている餌木の方がよいのではないかと考えています。


オーロラコアメスアオリという餌木


池袋でエギストッカーIIと併せて、変わり種の餌木も購入しました。デュエル(DUEL)/ヨーヅリ(YO-ZURI) アオリーQ RS 3.0号 OCFA(オーロラコアメスアオリ)です。その名の通り、メスアオリに似せてオスアオリを誘う不埒な餌木です。発想的には非常に面白いですね。また、この餌木の特徴はアイがなく、ボディにアオリの目が描かれています。(愛がないとはやっぱり不埒な餌木です。)
しかし、オスがメスを追いかけるのは産卵時期?ということは、春までお預け?

左写真は少しライトを当てていますが、よくよく見るとアオリっぽいです。

2009年12月4日金曜日

簡単テキストマイニング ExcelでKWIC (その2)

このエントリーをはてなブックマークに追加
ExcelでKWICを実現する「簡単テキストマイニング ExcelでKWIC」の続きです。
KWICとは、KeyWord In Context の略で、キーワード前後の文章を抽出する技術です。

Excel KWIC

A B C D E F G
1 キーワード KWIC
2 文字数 20
3 出現位置 2
4
5 出現頻度 1st 2nd Befor KWD KWD After KWD 検索対象文章
6 2 1 51 キーワード前後の文章を抽出する技術です。 KWIC によって文脈を簡単に理解することができま KWICとは、KeyWord In Context の略で、キーワード前後の文章を抽出する技術です。KWICによって文脈を簡単に理解することができます。

前回は、A6セルのキーワードの出現頻度までだったので、今回はキーワードの出現位置からになります。

B6はキーワードが最初に出現する位置で、C6が2番目に出現する位置になります。ここで求めたキーワード開始位置を使ってD6、F6でキーワード前後の文章を表示します。

指定した文字列が出現する位置を求めるには、Excelのfind()を利用します。

B6セルの説明

B1で指定したキーワードがG6の中で最初に出現する開始位置です。検索開始は1文字目からです。
=find($B$1,G6,1)

上記だとB1に指定したキーワードがG6で出現しない場合にエラー(#VALUE!)となりますので、iferror()関数を使って、キーワード存在しない場合に"-"を表記させます。

=iferror(find($B$1,G6,1),"-")

C6セルの説明

B1で指定したキーワードがG6の中で2番目に出現する開始位置です。言い換えると最初にキーワードが出現した以降で、次に最初に出現する位置となります。

最初に来ワードが出現した位置はB6です。しかし、

=find($B$1,G6,B6) ・・・① 1文字目から検索

と記載するとB6の位置からキーワードが始まっているので、B6と同じ結果になってしまいます。B6の位置から+1する必要があります。若しくは厳密にキーワードの長さ分を加算します。

=find($B$1,G6,B6+1) ・・・② 1+1=2文字目から検索
=find($B$1,G6,B6+len($B$1) ・・・③ 1+4=5文字目から検索

可視化するとこんな感じです。
K W I C

そしてエラーの場合には”-“を表示するという処理を付け加えると下記のようになります。

=iferror(find($B$1,G6,B6+len($B$1)),"-")

次に本題のキーワード前後の文章の表示です。キーワード後の方が簡単なので先にF6セルの説明をします。

F6セルの説明

文字列の一部を切り取るには、mid(文字列,開始位置,文字数)関数を使用します。

A B C
1 アオリイカ、コウイカ、カミナリイカ、ジンドウイカ、ミミイカ
2
3

上記のA1セルの中で"コウイカ"は、7文字目から始まり、4文字です。

Excelで表記すると、下記のようになります。

キーワード後の文字列を切り出すためにも、このmid()関数を使用します。キーワードの直後からB2セルで指定した分だけG6から切り出します。切り出し開始位置は、1番目のキーワードであれば、B6にキーワードの長さを加算した、1+4=5文字目になります。

=mid(G6,B6+len($B$1),$B$2)

2番目の出現位置からは

=mid(G6,C6+len($B$1),$B$2)

となります。

ここからが小技です。今回の仕様では、B3に"1"か"2"と入れることによって、キーワードの出現位置が1番目か、2番目かを選択できるようにしています。これをindex()関数を使って実現しています。

A B C D E
1 アオリイカ コウイカ カミナリイカ ジンドウイカ ミミイカ
2
3

=index(A1:E1,2)

とすると、A1:E1までの中で2番目の内容が返ってくるので「コウイカ」となります。

=index(A1:E1,5)

は、ミミイカです。

Excel KWICでは、

=index(B6:C6,$B$3)

で、B3セルに指定したn番目のキーワード開始位置を求めることができます。

=mid(G6,index(B6:C6,$B$3)+len($B$1),$B$2)

これにエラーの場合は、何も表示しないという処理を加えると

=iferror(mid(G6,index(B6:C6,$B$3)+len($B$1),$B$2),"")

となります。






2009年12月1日火曜日

簡単テキストマイニング ExcelでKWIC

このエントリーをはてなブックマークに追加
KWICとは、KeyWord In Context の略で、キーワード前後の文章を抽出する技術です。KWICによって文脈を簡単に理解することができます。これはテキストマイニングの技術としてだけではなく、Yahoo!やGoogleなどの検索結果にも利用されています。例えば下記はGoogleで"NPSとは"で検索した結果になります。
2008年7月19日 ... そして、推奨者から批判者の比率を減算したものが、ネットプロモータースコアー(NPS)です。つまり、30%が推奨者で、20%が批判者であれば、NPSは10%となります。もし推奨者が20%で批判者が30%であれば、NPSは-10%となります。 ...
このようにキーワードを中心とした文章が掲載されていると全体を読まなくとも指定したキーワード(特定の語彙)がどのように使われているかを理解することができます。KWICを使った検索機能は、日本語では難しい係受け分析を使用するよりも、キーワード(特定の語彙)の使われ方を知る有効な手段です。但し、KWICでは、「パンが美味しい」と記載されている文章は5件というような定量的表記はできません。

EXCELでKWIC

以前、紹介したTTM: Tiny Text Minerでは、このKWICの機能を有していません。それを補う場合にEXCELで簡易的にKWICを実行してみましょう。

EXCEL KWICの完成形は下記のようになりますが、キーワードが複数回出現する文章の対応がいまひとつです。時間があれば今度はVBAで作成してみようと思います。

A B C D E F G
1 キーワード KWIC
2 文字数 20
3 出現位置 2
4
5 出現頻度 1st 2nd Befor KWD KWD After KWD 検索対象文章
6 2 1 51 キーワード前後の文章を抽出する技術です。 KWIC によって文脈を簡単に理解することができま KWICとは、KeyWord In Context の略で、キーワード前後の文章を抽出する技術です。KWICによって文脈を簡単に理解することができます。

項目説明:

入力項目

B1 検索対象とするキーワードを入力します
B2 キーワード前後の表示する文字数を指定します
B3 何番目に出現するキーワードを対象とするかを入力します
G6 検索対象とする文章

出力項目

A6 B1で入力したキーワードがG6の文章の中に何回出現するかを表示します
B6 G6の文章の中でB1で指定したキーワードが最初に出現する位置を表示します
C6 G6の文章の中でB1で指定したキーワードが2番目に出現する位置を表示します
D6 B2で指定した文字数分、キーワード前の文章を表示します
E6 B1で指定したキーワードを表示します
F6 B2で指定した文字数分、キーワード後の文章を表示します

では、順次説明をしていきます。

キーワードの出現頻度:

今回のEXCEL KWICでは、複数回出現するキーワードの対応ができていません。しかし冗長的な表現となっていますが、出現頻度が2回以下であれば、2回目に出現する位置でのKWIC表記は対応しています。出現頻度が多いキーワードは、別な工夫が必要となるので、先ずは文章内でのキーワードの出現頻度を求めます。

Excelでは、指定した文字をカウントしてくれるような関数が提供されていないので、文字列の出現頻度を求めるには工夫が必要です。そのため対象文章からカウントしたい文字列を削除して、その差分をカウントしたい文字列の長さで除算して求めます。

=(元の文章の長さ-元の文章から文字列を削除した長さ)/文字列の長さ

A B C
1 アオリイカ、コウイカ、カミナリイカ、ジンドウイカ、ミミイカ
2
3

上記で"イカ"が何回出現するかをカウントするためには、

1)文章の長さを求める
=len(A1)
結果:29

2)カウントしたい文字列を削除した文章を作成する
=substitute(A1,"イカ","")
結果:アオリ、コウ、カミナリ、ジンドウ、ミミ

3)カウントしたい文字列を削除した文章の長さ
=len(substitute(A1,"イカ",""))
結果:19

4)元の文章と文字列を削除した文章の差
=len(A1)-len(substitute(A1,"イカ",""))
結果:29-10=10

5)カウントしたい文字列の長さ
=len("イカ")
結果:2

6)出現頻度を求める
=(len(A1)-len(substitute(A1,"イカ","")))/len("イカ")
結果:(29-19)/2=5

これで"イカ"の出現頻度5回を求めることができます。

余談となりますが、この方法を用いると例文のように区切り文字で文字列が連続している場合に何個の文字列があるかも求めることができます。

=(len(A1)-len(substitute(A1,"、","")))+1

区切り文字"、"の個数+1が文字列の個数になるというわけです。

Excel KWICのA6のセルは、
=(len(G6)-len(substitute(G6,$B$1,"")))/len($B$1)
と記載します。

と、いうことで今回はここまで。
続きは次回以降に書きます。







 
"));