先日、形態素解析に関するまとめ記事を書きましたが、いまいち煮え切れません。なぜなら、Tiwtterのつぶやきについて、形態素解析だけを行っても、それだけで何か面白い知見を得られるわけではないからです。
そこで、最近個人的に目をつけたのが、テキストマイニングという技術です。そこで、今回はゼロから学ぶテキストマイニングとして、参考になりそうな本やWebサイトの「まとめ」をしてみました。
テキストマイニングの概要
Webサイトよりも、本の方が参考になりました。読んだのは、テキストマイニングを使う技術/作る技術―基礎技術と適用事例から導く本質と活用法です。
第1章しか読んでませんが、30分ほどでテキストマイニングを使って、何ができるか分かりました。個人的には、以下の3点について印象が残りましたので、引用させてもらいます。
1.分析技術としてのテキストマイニングの特徴(P16)
[table id=4 /]
2.テキストマイニング向けの自然言語処理(P.26)
- 形態素解析を用いた概念抽出
- 構文解析を用いた概念抽出
- 分析対象の選択(カテゴリの設定)
- 多様性の吸収(同義表現の認識)
3.分析目的の設定とそれに応じたデータの構造化の必要性(P.45)
有用な結果を得るためには分析目的の設定やそれを実現するための意味的属性の設定が必要であり、この設定を行わずに処理をしても、役に立つ結果が得られることはまずあり得ない。
すなわち、定型データのように構造化されていない文書データを処理する上では、文書データの内容を構造化する工夫が必要である。そのためには対象分野に関する十分な知識に基づいて有益な分析を可能にするための設定が必要である。
テキストマイニングの実務
概要だけを知っても仕方がないので、実際どうやって手を動かすかについて。
R言語の学習
テキストマイニングを行うためには、R言語という統計解析用のプログラミング言語が、よく使われているとのこと。まずこれのお勉強から。さすがドットインストール!手回しが早い(笑)
Twitterテキストマイニング
R言語は、twitteRというTwitter APIを利用しつつ、形態素解析ができるとのこと。すばらしい!そのドキュメンテーション(PDF)とその具体例。あと、形態素解析エンジンのRMeCabに関する言及もされています。
- Package ‘twitteR’(PDF)
- 実践! Rで学ぶ統計解析の基礎(5):インターリュード: TwitterとR (2/2) – @IT
- R言語でTwitterを操作する : 実験ぶろぐ(仮)試供品
TwitteRのスライドあれこれ
他にもいろいろとTwitteRで、楽しそうに遊んでいる方がいらっしゃったので、slide shareから引用しました。機会があればこれらも良いかも。
まとめのまとめ
テキストマイニングを行うために、R言語やtwitteRなどのツールを使いこなせるようになることは、大変重要です。しかしそれ以上に重要なことは、「仮説を立てること」なんじゃないでしょうかね?
Twitterのリスト機能を使って、特定のカテゴリに属するアカウントを日頃から観測しておくとか。そんな気がします。