形態素解析を利用するための参考ページまとめ15選。Twitterのつぶやき中にあるキーワードをランキングしたい!

目次
TwitterのSearchAPIで拾ってきたつぶやきに、どんなキーワードがいくつ含まれているか、カウントしてみたいと考えています。具体的には形態素解析という技術が必要で、この方が艦これ(新しいタブで開く)をテーマとして解析されています。
形態素解析なんてはじめて聞く言葉です。それがTwitterAPIとどう結びつくのかまったく分からないので、ぐぐって調べてみることから始めてみました。
今回はTwitterAPIで取り出したつぶやきについて、形態素解析をするために必要な知識やテクニックが記された記事をまとめてみました。
形態素解析の概要から実行まで
形態素解析とは何か(2)
言葉の解釈ならWikiPediaですが、形態素解析を簡単に体験してみるのは、Yahoo geocitiesのページが分かりやすいと思います
形態素解析を実行するためのソフトウェア~Yahoo!デベロッパーネットワーク(3)
- テキスト解析サンプルコード:形態素解析 – Yahoo!デベロッパーネットワーク(新しいタブで開く)
- テキスト解析:日本語形態素解析 – Yahoo!デベロッパーネットワーク(新しいタブで開く)
- 【PHP】Yahoo 日本語形態素解析APIの使い方 – ysklog(新しいタブで開く)
APIなので解析そのものはそれほど難しそうには見えませんが、YahooにTwitterのつぶやきテキストをどうやって投げたらいいのか、すぐには思いつきません。
形態素解析を実行するためのソフトウェア~Mecab(めかぶ)(2)
Mecabとはオープンソースの形態素解析エンジンのこと。とくに意識したわけではありませんが、ぐぐっているときによく検索結果として返されてきました。
形態素解析エンジンを集めてみました(新しいタブで開く)の記事でも、Mecabが一番いいと紹介されています。
形態素解析の設定と取得~PHP(3)
- Mac Lion と CentOS と Ubuntu に MeCab をインストールする方法 – WEBLE(新しいタブで開く)
- PHP で Mecab を使って日本語形態素解析の結果を簡単に取得するまでの設定まとめ – WEBLE(新しいタブで開く)
- PHP で Mecab を使って日本語形態素解析の結果を簡単に取得する! – Qiita(新しいタブで開く)
とりあえずMecabをインストールして、簡単な文章でいいから形態素解析の結果を返す必要があります。その結果の取得についてPHPで行います。
形態素解析の設定と取得~Ruby(2)
- rubyで自分のツイートデータから頻出語を見つける – くろの雑記帳(新しいタブで開く)
- バイト先のツイッターアカウントを形態素解析して最もリツイートされやすいつぶやきを考えた – razokulover publog(新しいタブで開く)
PHPの例では自分で設定した簡単な文章について解析を行われていますが、こちらの2つのサイトではRubyで直接つぶやきを解析されています。
同じことをPHPでやっている方は、この記事を作成した時点では見つけられませんでした(泣
おまけ~Rubyのお勉強について(3)
- RubyをCentOS/RedHatにインストールする4つの方法 – WEB ARCH LABO(新しいタブで開く)
- Ruby2.0をソースからインストールする手順 (CentOS/RedHat) – WEB ARCH LABO(新しいタブで開く)
- Ruby入門 (全23回) – プログラミングならドットインストール(新しいタブで開く)
上記のRubyでされていることをPHPに置き換えればいいのでしょうが、自分はRubyという言語を全く知りません。とりあえず何をやっているのか概要は知っておかねば。