『テキストマイニング入門 』

『テキストマイニング入門 ~ExcelとKH Coderでわかるデータ分析~』 末吉 美喜 オーム社
データ分析のひとつにテキストデータの分析がある。

SNSなどに書かれているメッセージやアンケートの自由記述の分析だったり、コールセンターの問い合わせ分析だったり。テキストデータはいろんな種類がある。

そのテキストデータを分析して、様々な知見を得ることをテキストマイニングと言う。
マイニングといのは日本語に訳すと採掘という。膨大なテキストの中をほじくって有益な知見を掘り出すイメージだ。

本書は、数字が苦手の堀井舞とイケメン先輩の会話で成り立っている。

先輩から『データを分析するうえで最も大切なことは「目的」を明確にすること』と言われて、

舞  目的ですか……。今回の場合、商品企画のため、でしょうかね?
先輩 ざっくりだね(笑)。商品企画といっても、例えば既存商品の課題を解決する
   ための仮説検証としてデータを分析するのか、新規商品のためのニーズや
   シーズの調査なのか、競合他社の動向を探りたいのか、などの目的によって、
   調べるべきデータや分析手法は異なるもの。
   なので、まずは分析のゴールや知りたいことを明らかにすることはデータ分
   析の第一ステップなんだよ。
舞  確かに、データ分析の目的が明確であればあるほど、具体的にどんなデータ
   を集めれば知りたいことに近づけるかが見えてきそうですね!
先輩 そのとおり。データ分析はPPDACのサイクルで回していけばいいのだから。
舞  PPDAC??それ何ですか?! 業務改善や課題解決で使われるPDCAなら
   知ってますが……。
先輩 まぁ似たようなものだよ。PDCAは元々は品質管理の分野で使われていたも
   ので、「Plan(計画)」「Do(実行)」「Check(検証)」「Action(改善)」という4
   つのプロセスを順に実施して繰り返すことで成果を高めていこうとするフ
   レームワークだよね。PPDACはデータ分析のサイクルで、「Problem(問
   題)」「Plan(計画)」「Data(データ収集)」「Analysis(分析)」「Conclusion(結
   論)」の5段階を循環させて、データに基づいて問題を解決しようとする考え
   方だ。

何を分析するかの目標を立てて、データを集めて分析していく。PPDACのサイクルの最初は、問題から始めることもあるし、その次の計画からスタートして回していくこともあるという。

さて、舞さんは、スマートウォッチのニーズ分析にとりかかった。
まずは、ネットサーフィンでデータを集めて分析することとアンケートを取って分析する計画を立てた。

ネットから集めたデータの分析。となって、本題のテキスト分析に入る。

本書では、このテキスト分析を順を追いながら、ツールのインストール方法も図示して、解説している。

紹介されているツールは、
 KH Coder
という、立命館大学の樋口耕一先生が開発したオープンソースのフリーソフトウェアである。だれでもダウンロードして使うことができる。小生も使ったことがある。

テキスト文章を、言葉の品詞分解を行って、どういう言葉がどのくらい多くでてくるのか、どの言葉とどの言葉が近接して使われることが多いのかを分析していく。

テキストデータと言っても、その中身が適切なデータとは限らない。
データがより適切になるように、テキスト特有の変換を行う。
これをデータクレンジングという。データをきれいにするということだ。
よくあるクレンジングが必要な表記の例

①固有名詞の表記(会社名や商品名、正式名称と略称の違いなど)
②漢字やカタカナ表記、送り仮名の使い方
③全角文字と半角文字の違い(英字、カナ、数字、スペース)
④記述記号の扱い方(\、#、%など)

このような、同じ意味なのに表現が違う言葉を、同じものとして扱うようにデータを変換していく作業が結構大変なのだ。データ量が多ければ多いほど時間がかかる。エディタやExcelで処理できる量であれば一括変換したりして行う。

いきなり、データクレンジングをガンガンやらずに、一度KH Coderで用語がどの程度使われているかの統計を取って、上位にくる言葉を眺めて
見るといい。

「スマートホン」と「スマホ」が上位にきていたら、どちらかに統一するように変換する。
これがPPDACを繰り返すとうことの一つの理由だ。

基本的な使い方と、ビジュアルな表現(共起ネットワークやバブルチャートなど)の使い方の説明がされたあと、実際に集めたデータから実践編へすすむ。

アイデア調査には二つの種類がある

アイデア探索型
 新たなアイデアやヒントを得ることを目的とし、仮設が立てにくい初期
の段階で方向性や初期仮説を発見するために行う調査
主に定性データによって探索される

仮説検証型
 仮説を検証するために行う調査。既存の製品・サービスや市場の課題解
決に適している
主に定量データによって検証される

舞さんは、ネットで集めた定性的なデータを分析して、ある程度仮説が立てられたら、アンケート調査を行って、定量データ分析を行った。

こうすると、商品企画の内容の重みが増す。
テキスト分析をやってみたい人に、この入門書はお手頃である。






ブログ気持玉

クリックして気持ちを伝えよう!

ログインしてクリックすれば、自分のブログへのリンクが付きます。

→ログインへ

なるほど(納得、参考になった、ヘー)
驚いた
面白い
ナイス
ガッツ(がんばれ!)
かわいい

気持玉数 : 24

なるほど(納得、参考になった、ヘー) なるほど(納得、参考になった、ヘー) なるほど(納得、参考になった、ヘー) なるほど(納得、参考になった、ヘー) なるほど(納得、参考になった、ヘー) なるほど(納得、参考になった、ヘー) なるほど(納得、参考になった、ヘー) なるほど(納得、参考になった、ヘー) なるほど(納得、参考になった、ヘー) なるほど(納得、参考になった、ヘー) なるほど(納得、参考になった、ヘー) なるほど(納得、参考になった、ヘー) なるほど(納得、参考になった、ヘー) なるほど(納得、参考になった、ヘー) なるほど(納得、参考になった、ヘー) なるほど(納得、参考になった、ヘー) なるほど(納得、参考になった、ヘー) なるほど(納得、参考になった、ヘー) なるほど(納得、参考になった、ヘー) なるほど(納得、参考になった、ヘー) なるほど(納得、参考になった、ヘー) なるほど(納得、参考になった、ヘー) なるほど(納得、参考になった、ヘー) なるほど(納得、参考になった、ヘー)

この記事へのコメント

2020年03月07日 11:03
こんにちは

テキストマイニングっていうんですか。
入門だったら優しく教えてくれてるのかな。