1. TOPTOP
  2. Webサービス
  3. textminig

形態素解析を利用するための参考ページまとめ15選。Twitterのつぶやき中にあるキーワードをランキングしたい!

|

Twitter_logo_blue

TwitterのSearchAPIで拾ってきたつぶやきに、どんなキーワードがいくつ含まれているか、カウントしてみたいと考えています。具体的には形態素解析という技術が必要で、この方が艦これ(新しいタブで開く)をテーマとして解析されています。

形態素解析なんてはじめて聞く言葉です。それがTwitterAPIとどう結びつくのかまったく分からないので、ぐぐって調べてみることから始めてみました。

今回はTwitterAPIで取り出したつぶやきについて、形態素解析をするために必要な知識やテクニックが記された記事をまとめてみました。

形態素解析の概要から実行まで

keitaisokaiseki1

形態素解析とは何か(2)

言葉の解釈ならWikiPediaですが、形態素解析を簡単に体験してみるのは、Yahoo geocitiesのページが分かりやすいと思います

形態素解析を実行するためのソフトウェア~Yahoo!デベロッパーネットワーク(3)

APIなので解析そのものはそれほど難しそうには見えませんが、YahooにTwitterのつぶやきテキストをどうやって投げたらいいのか、すぐには思いつきません。

形態素解析を実行するためのソフトウェア~Mecab(めかぶ)(2)

Mecabとはオープンソースの形態素解析エンジンのこと。とくに意識したわけではありませんが、ぐぐっているときによく検索結果として返されてきました。

形態素解析エンジンを集めてみました(新しいタブで開く)の記事でも、Mecabが一番いいと紹介されています。

形態素解析の設定と取得~PHP(3)

とりあえずMecabをインストールして、簡単な文章でいいから形態素解析の結果を返す必要があります。その結果の取得についてPHPで行います。

形態素解析の設定と取得~Ruby(2)

PHPの例では自分で設定した簡単な文章について解析を行われていますが、こちらの2つのサイトではRubyで直接つぶやきを解析されています。

同じことをPHPでやっている方は、この記事を作成した時点では見つけられませんでした(泣

おまけ~Rubyのお勉強について(3)

上記のRubyでされていることをPHPに置き換えればいいのでしょうが、自分はRubyという言語を全く知りません。とりあえず何をやっているのか概要は知っておかねば。