ゼロから学ぶテキストマイニング。参考書籍・Webサイトまとめ9選。概要、仮説の構築、R言語、RMeCab、twitteRなど

2014年12月4日2017年11月19日

先日、形態素解析に関するまとめ記事を書きましたが、いまいち煮え切れません。なぜなら、Tiwtterのつぶやきについて、形態素解析だけを行っても、それだけで何か面白い知見を得られるわけではないからです。

そこで、最近個人的に目をつけたのが、テキストマイニングという技術です。そこで、今回はゼロから学ぶテキストマイニングとして、参考になりそうな本やWebサイトの「まとめ」をしてみました。

テキストマイニングの概要

Webサイトよりも、本の方が参考になりました。読んだのは、テキストマイニングを使う技術/作る技術―基礎技術と適用事例から導く本質と活用法です。

第1章しか読んでませんが、30分ほどでテキストマイニングを使って、何ができるか分かりました。個人的には、以下の3点について印象が残りましたので、引用させてもらいます。

1.分析技術としてのテキストマイニングの特徴(P16)

[table id=4 /]

2.テキストマイニング向けの自然言語処理（P.26）

形態素解析を用いた概念抽出
構文解析を用いた概念抽出
分析対象の選択（カテゴリの設定）
多様性の吸収（同義表現の認識）

3.分析目的の設定とそれに応じたデータの構造化の必要性（P.45）

有用な結果を得るためには分析目的の設定やそれを実現するための意味的属性の設定が必要であり、この設定を行わずに処理をしても、役に立つ結果が得られることはまずあり得ない。
すなわち、定型データのように構造化されていない文書データを処理する上では、文書データの内容を構造化する工夫が必要である。そのためには対象分野に関する十分な知識に基づいて有益な分析を可能にするための設定が必要である。