1. TOPTOP
  2. Webサービス
  3. textminig

ゼロから学ぶテキストマイニング。参考書籍・Webサイトまとめ9選。概要、仮説の構築、R言語、RMeCab、twitteRなど

|

editor

先日、形態素解析に関するまとめ記事(新しいタブで開く)を書きましたが、いまいち煮え切れません。なぜなら、Tiwtterのつぶやきについて、形態素解析だけを行っても、それだけで何か面白い知見を得られるわけではないからです。

そこで、最近個人的に目をつけたのが、テキストマイニングという技術です。そこで、今回はゼロから学ぶテキストマイニングとして、参考になりそうな本やWebサイトの「まとめ」をしてみました。

テキストマイニングの概要

text_mining2

Webサイトよりも、本の方が参考になりました。読んだのは、テキストマイニングを使う技術/作る技術―基礎技術と適用事例から導く本質と活用法です。

第1章しか読んでませんが、30分ほどでテキストマイニングを使って、何ができるか分かりました。個人的には、以下の3点について印象が残りましたので、引用させてもらいます。

1.分析技術としてのテキストマイニングの特徴(P16)

[table id=4 /]

2.テキストマイニング向けの自然言語処理(P.26)

  • 形態素解析を用いた概念抽出
  • 構文解析を用いた概念抽出
  • 分析対象の選択(カテゴリの設定
  • 多様性の吸収(同義表現の認識

3.分析目的の設定とそれに応じたデータの構造化の必要性(P.45)

有用な結果を得るためには分析目的の設定やそれを実現するための意味的属性の設定が必要であり、この設定を行わずに処理をしても、役に立つ結果が得られることはまずあり得ない。
すなわち、定型データのように構造化されていない文書データを処理する上では、文書データの内容を構造化する工夫が必要である。そのためには対象分野に関する十分な知識に基づいて有益な分析を可能にするための設定が必要である。

テキストマイニングの実務

text_mining

概要だけを知っても仕方がないので、実際どうやって手を動かすかについて。

R言語の学習

テキストマイニングを行うためには、R言語という統計解析用のプログラミング言語が、よく使われているとのこと。まずこれのお勉強から。さすがドットインストール!手回しが早い(笑)

Twitterテキストマイニング

R言語は、twitteRというTwitter APIを利用しつつ、形態素解析ができるとのこと。すばらしい!そのドキュメンテーション(PDF)とその具体例。あと、形態素解析エンジンのRMeCabに関する言及もされています。

TwitteRのスライドあれこれ

他にもいろいろとTwitteRで、楽しそうに遊んでいる方がいらっしゃったので、slide shareから引用しました。機会があればこれらも良いかも。

Rによるテキストマイニングの一例 from NTT Communications(新しいタブで開く)

TwitterのデータをRであれこれ from Takeshi Arabiki(新しいタブで開く)

RではじめるTwitter解析 from Takeshi Arabiki(新しいタブで開く)

twitteRで快適Rライフ! from Takeshi Arabiki(新しいタブで開く)

まとめのまとめ

テキストマイニングを行うために、R言語やtwitteRなどのツールを使いこなせるようになることは、大変重要です。しかしそれ以上に重要なことは、「仮説を立てること」なんじゃないでしょうかね?

Twitterのリスト機能を使って、特定のカテゴリに属するアカウントを日頃から観測しておくとか。そんな気がします。