象と散歩をするようにゆっくりとデータ解析やマーケティングについて考えてみようと思っていますが、物欲という雑念が払拭できません。趣味のエギング、アクアリム、三線は永遠の初心者です。ずっと憧れていたアップライトベースにも手をだしながら、ここ数年は、手書きに原点回帰し、万年筆沼にハマっています。
Kanji 携帯ショートギャフ
大人気のKanji International のアオリイカ専用携帯ショートギャフが新しくなり、3.3mになりました。サイズアップがコストアップに繋がったのか、4,800円から6,000円に値上がりしています。
3.3mが発売されたおかげか、旧バージョンの2.4mが流通するようになっています。私自身は、以前にKanji 携帯ショートギャフ(ダークブルー)を購入しています。
仕舞寸法が27cmと、とても小さいです。全長が2.4mなので、高い堤防の上からの利用はできませんが、ポケットに入るこのサイズは魅力です。肩にギャフを背負っている姿も格好いいですが、ポケットにそっと忍び込ませて、大物のアオリイカを釣り上げたときに颯爽と出すのも日本人的嗜好にあっているかもしれません。
ギャフが必要なほど、大きなサイズのアオリイカを釣り上げたことはないので、実戦では未利用ですが、4本のフックが、かなり小さいので、簡単にイカにかかるのかはちょっと不安です。
でも、陸っぱりのエギンガーには、持っていて損はない、1本だと思います。
・Kanji 携帯ショートギャフ(ダークブルー)
・Kanji 携帯ショートギャフ(レッド)
・Kanji 携帯ショートギャフ(シルバー)
TTM: TinyTextMiner でテキストマイニング
※ Tiny TextMinerでテキストマイニング(その2)もご覧ください
csv形式のタグ付きテキストデータを読み込んで下記の6種類の出力結果が得られます。
- 語のタグ別出現度数(出現頻度)
- 語のタグ別出現度数(出現件数)
- 語×タグのクロス集計(出現頻度)
- 語×タグのクロス集計(出現件数)
- 語×語のクロス集計(出現件数)
- テキスト×語のクロス集計(出現頻度)
Tiny TextMinerのインストール
Tiny TextMinerのインストールを参照して下さい。ttm.exe(Tiny TextMiner本体)以外にMeCabとCaboChaをインストールします。CaboChaを利用するためには、Chasen(茶筌)のインストールも必要です。
*ダウンロード先のURL(バージョン)を更新(2020.5.25)
ソフト | ダウンロード先 | 補足 |
Tiny TextMiner | https://mtmr.jp/ttm/ | Tiny TextMiner本体 |
Mecab | https://taku910.github.io/mecab/ | 形態素解析 文字コードは「Shift-JIS」を選択 |
CaboCha | https://taku910.github.io/cabocha/ | 係り受け解析 |
Chasen | https://chasen-legacy.osdn.jp/ | CaboChaで利用 |
Tiny TextMinerを使ってみよう
解析をする入力ファイルファイルは、下記の項目をCSV形式(カンマ区切り)で作成します。
1列目 タグ, 2列目 本文
1行目は、指定した項目毎にカウントするために必要な項目ですが、必須項目です。「茶筌でテキストマイニング(実践編) 」の例としてあげたメルマガ単位の集計をするような場合であれば、タグに曜日や月などを指定すると曜日毎の出現頻度などを計測することができます。
利用するサンプルは、上記の「茶筌でテキストマイニング(実践編) 」で利用した日経ビジネスオンラインのメルマガタイトルを利用します。(今回は件数が少ないのでタグは必要ありませんが、必須項目なので"1"を指定します。)
入力ファイルの例; 日経ビジネスオンライン.csv
1,米国で成功しなかったビジネスモデルに挑戦
1,企業トップの読者が選んだ、リーマンショック後の10大ニュース
1,やっぱりおかしいビッグスリー救済
1,新コラム、衆院選「候補者A」かく闘わんとす
1,カルロス・ゴーンがGMを救う
キーワードファイル、同義語ファイル、不要語ファイルは、指定しない。
Tiny TextMinerの実行画面
入力ファイルに「日経ビジネスオンライン.csv」を指定
キーワードファイル、同義語ファイル、不要語ファイルは、指定しない。
Tiny TextMinerの実行結果
下図は、出現頻度の集計結果(日経ビジネスオンライン_ttm1.csv)を加工したものです。辞書ファイルを何も適用していないのでので、「茶筌でテキストマイニング(実践編) 」の結果と異なっています。
大きな違いは、未知語が集計されていないので、「オバマ」という単語が欠落しているのと、米国の記載方法が、アメリカ、米、米国に分散されていることです。
未知語については、集計結果からは、探しだすことはできませんので、入力ファイルをみて辞書登録をする必要があります。
Tiny TextMinerで辞書の設定
MeCabに辞書登録をしても構いませんが、chasen(茶筌)と同様に毎回コンパイルが必要となります。Tiny TextMinerでは、キーワードの登録、同義語の登録、不要語の登録ができますので、こちらを活用します。
キーワードの登録
人名をキーワードファイルに登録します。1行毎に記載するだけです。
キーワード.txt
オバマ ゴーン 三木谷 楽天
同義語の登録
米国、米、アメリカをすべて米国とします。先頭に集約する単語、半角スペースで区切って集約される単語を記載します。
同義語.txt
米国 アメリカ 米
不要語の登録
解析に不要な単語を1行に1単語指定します。
不要語.txt
人 何 力 場 ない
以上で、辞書ファイルの設定は終了です。Tiny TextMinerの実行画面で上記で作成したファイルを指定します。
実行結果(日経ビジネスオンライン_ttm1.csvを加工)
同義語で指定した「米国」が9回でトップ、キーワードで指定した「オバマ」が7回で次点にあがってきます。
Tiny TextMinerで係り受け分析
日本語における係り受け分析の難しさを理解した上で、係り受け分析を利用する必要があると思います。またTiny TextMinerでは、キーワードファイルに指定した単語は係り受け分析の対象にはなりません。
係り受け解析の実行は、「詳細設定」「その他」にある「係り受け解析を行う」をチェックするだけです。
下記は、係り受け解析の結果から「米国」を含むものだけを抽出した結果になります。
タグ | 係り受け | 品詞 | 品詞細分類 | 出現頻度 |
1 | 大統領+米国 | 名刺+同義語 | 一般+同義語 | 1 |
1 | 米国+成功 | 同義語+名詞 | 同義語+サ変接続 | 1 |
1 | 緊急特集+米国自動車発経済危機章 | 名詞+同義語 | 形容動詞語幹+同義語 | 1 |
1 | 米国主導時代+幕開け | 同義語+名詞 | 同義語+一般 | 1 |
1 | 米国+利下げ | 同義語+名詞 | 同義語+サ変接続 | 1 |
1 | 更新+米国自動車発経済危機章 | 名詞+同義語 | サ変接続+同義語 | 1 |
「オバマ」については、キーワードに指定しているため係り受け分析ができないので、語×語のクロス集計(出現件数)から下記を作成しました。
同時出現単語 | 出現件数 |
オバマ | 7 |
米国 | 2 |
記事 | 1 |
サブ|プライム | 1 |
コラム | 1 |
特集 | 1 |
ネット|市民 | 1 |
中国|網|民 | 1 |
ハト|派 | 1 |
スタント|先生|直伝 | 1 |
国民 | 1 |
貧民|街 | 1 |
大統領 | 1 |
現象 | 1 |
シカゴ | 1 |
語×語のクロス表が作成できるので、統計解析ツールなどで深掘りすることも可能ですね。
Tiny TextMinerについては、4月24日に誠信書房から発売される「人文・社会科学のためのテキストマイニング」に使い方の詳細が掲載されるようです。
第1章 序
1.1 テキストマイニングがもたらすブレイクスルー
1.2 タダで本格的なテキストマイニング
1.3 本書の構成
第2章 TTMと関連ソフトウェアのインストール
2.1 テキストマイニングの準備
2.2 TTMのダウンロードとインストール
2.3 TTM関連のツールの準備
2.4 分析用各種ソフトウェアのインストール
第3章 TTMによるテキストデータの分析
3.1 TTMの基本的な使い方
3.2 テキストマイニングで知る経済情勢の時系列変化
3.3 質問紙調査の自由記述回答文の分析
第4章 Rを併用したテキストデータの統計解析
4.1 Rの使い方
4.2 Rによるテキストデータの解析
4.3 補遺・Rに関する参考書
第5章 Wekaを併用したテキストデータのデータマイニング
5.1 属性と事例
5.2 データマイニングのプロセス
5.3 入力ファイルの作成
5.4 入力ファイルの読み込み
5.5 決定木
5.6 ナイーブベイズ分類器
5.7 クラスタリング
5.8 まとめ
第6章 テキストマイニングの応用事例
6.1 質問紙調査の自由記述回答文
6.2 電子掲示板
6.3 ブログ
6.4 メーリングリストと議事録
第7章 テキストマイニングの基盤技術
7.1 自然言語処理
7.2 統計解析
7.3 データマイニング
関連するブログ(茶筌でテキストマイニング);
春のエギング
普段持ち歩かない玉網まで乗せて、いざ出陣です。30分近くかけてやっとポイントに辿りつくと、何人かの方がシャクっています。手漕ぎボートの上で立つ勇気はなく、座位でのエギング。波なし、風なしでとても気持ちよく、心配していた船酔いも大丈夫でした。
が、しかし、肝心の釣果は0杯でした(涙)。
波にタプタプと揺られて気持ちよいひとときを過ごすことができましたが、ちと悔しいです。
今度は、陸っぱりからのエギングで、春イカに挑戦したいと思います。
帰りに、保田漁港の隣にあるスーパーに寄ると、保田・勝山産の新鮮な魚介類が売られていたので、スミイカ(甲イカ)とヤリイカをお土産に買って帰りました。
週明けにエギング師匠に釣果を報告をすると、氏曰く「先週末は、冷たい海流が流れ込んだみたいだよ」とのこと。んー、難しいですね。師匠。今度また一緒にエギングに行きましょう。
「最強シンプルエギング」という題名に先ず惹かれました。キャッチも「もう二段シャクリはいらない!」と魅力的です。
と、いうことでお買い上げ。
笛木展雄氏のエギング教則DVDです。
・二段シャクリはいらない
>>昨今、餌木の性能がいいので多段シャクリは必要ない
と、いままでのエギングの知識を否定する内容で、実際に水中撮影を交えて釣れることを証明しています。
今度、試してみたいと思います。
象と散歩:人気の投稿(過去7日間)
-
棕櫚(しゅろ)ほうき は、シュロ(ヤシ科植物)の繊維質の樹皮を束ねて先端をほぐしたシンプルな作りのほうきです。イネ科のホウキモコロシを束ねて作る江戸箒(座敷ほうき)より歴史は古く、日本古来のほうきですが、柔らかい繊維の穂先で細かいゴミまでしっかりキャッチできます。 そんな...
-
Excelでデータを結合する関数に VLOOKUP がありますが、使っていないと直ぐに忘れてしまうし、複数の列で結合するのは、ちょっと面倒です。しかし、Office365、若しくは、Office2016以降であれば [ データ ]タブの[ データの取得と変換 ]を使えば簡単に...
-
Googleフォームでの回答内容をGAS(Google Apps Script)で参照する方法です。 Googleフォームの値を取得するには2種類の方法があります。 フォームが実行されたときに値を取得 フォームを指定して回答内容を取得 今回は、「フォ...
-
Echoで音楽を聴くようになったのは Amazon Echo(第3世代)からです。 当初は、無指向性モノラル スピーカーから流れる音楽に満足していました。しかし、Echo第3世代 をステレオ化したら、音の広がりが予想以上に気持ちがいい。 これならばと Echo Plu...
-
MOUSTACHE(ムスタッシュ)の持ち手が本革で、本体は合皮(合成皮革)のトートバックを使っています。合皮の鞄は、軽く、柔らかくてしなやかな手触りが特徴で、耐水性もあるので雨の日でも使えます。 デザインもシンプルで軽いバッグなので気に入っていたのですが、擦れやすい鞄...
-
Googleフォームでの回答内容をGAS(Google Apps Script)で参照する方法です。 Googleフォームの値を取得するには2種類の方法があります。 フォームが実行されたときに値を取得 フォームを指定して回答内容を取得 今回は、「 フ...
-
GoogleスプレッドシートをGAS(Google Apps Script)で処理するのであれば配列を覚えましょう。配列を使ってシートの読み書きを一括で行うと処理が格段に速くなります。 なぜ配列を使うのか GASには、 Google Sheets のアクセス...
-
PowerPoint で作成したプレゼン資料に Youtubeの動画を使おうと思ったのですが、使いたいのは動画の一部分だけです。 Youtubeの再生で開始時間と終了時間を指定する方法がないかと探してみると 、Googleの開発者向けページに YouTube 埋め込みプ...
-
ExcelファイルのデータをGASで処理するには、GoogleDrive上でExcelファイルを開いてGoogleスプレッドシートで保存する必要があります。 小さなExcelファイルなら上記の方法でも構いませんが、大きなExcelファイルだと ”Googleスプレッド...
-
Googleスプレッドシートの特定セルの値が更新されたらかを知る方法についての説明です。 スプレッドシートでのプロジェクト計画管理については、 スプレッドシートでプロジェクト計画を作成する方法 - Google Workspace ラーニング センター に説明があります...