TwitterのSearchAPIで拾ってきたつぶやきに、どんなキーワードがいくつ含まれているか、カウントしてみたいと考えています。具体的には形態素解析という技術が必要で、この方が艦これをテーマとして解析されています。
形態素解析なんてはじめて聞く言葉です。それがTwitterAPIとどう結びつくのかまったく分からないので、ぐぐって調べてみることから始めてみました。
今回はTwitterAPIで取り出したつぶやきについて、形態素解析をするために必要な知識やテクニックが記された記事をまとめてみました。
形態素解析の概要から実行まで
形態素解析とは何か(2)
言葉の解釈ならWikiPediaですが、形態素解析を簡単に体験してみるのは、Yahoo geocitiesのページが分かりやすいと思います
形態素解析を実行するためのソフトウェア~Yahoo!デベロッパーネットワーク(3)
- テキスト解析サンプルコード:形態素解析 – Yahoo!デベロッパーネットワーク
- テキスト解析:日本語形態素解析 – Yahoo!デベロッパーネットワーク
- 【PHP】Yahoo 日本語形態素解析APIの使い方 – ysklog
APIなので解析そのものはそれほど難しそうには見えませんが、YahooにTwitterのつぶやきテキストをどうやって投げたらいいのか、すぐには思いつきません。
形態素解析を実行するためのソフトウェア~Mecab(めかぶ)(2)
Mecabとはオープンソースの形態素解析エンジンのこと。とくに意識したわけではありませんが、ぐぐっているときによく検索結果として返されてきました。
形態素解析エンジンを集めてみましたの記事でも、Mecabが一番いいと紹介されています。
形態素解析の設定と取得~PHP(3)
- Mac Lion と CentOS と Ubuntu に MeCab をインストールする方法 – WEBLE
- PHP で Mecab を使って日本語形態素解析の結果を簡単に取得するまでの設定まとめ – WEBLE
- PHP で Mecab を使って日本語形態素解析の結果を簡単に取得する! – Qiita
とりあえずMecabをインストールして、簡単な文章でいいから形態素解析の結果を返す必要があります。その結果の取得についてPHPで行います。
形態素解析の設定と取得~Ruby(2)
PHPの例では自分で設定した簡単な文章について解析を行われていますが、こちらの2つのサイトではRubyで直接つぶやきを解析されています。
同じことをPHPでやっている方は、この記事を作成した時点では見つけられませんでした(泣
おまけ~Rubyのお勉強について(3)
- RubyをCentOS/RedHatにインストールする4つの方法 – WEB ARCH LABO
- Ruby2.0をソースからインストールする手順 (CentOS/RedHat) – WEB ARCH LABO
- Ruby入門 (全23回) – プログラミングならドットインストール
上記のRubyでされていることをPHPに置き換えればいいのでしょうが、自分はRubyという言語を全く知りません。とりあえず何をやっているのか概要は知っておかねば。