そろそろ本気でテキストマイニングをやりたくなってきました。そこで今回は、全くゼロの状態から、R言語をWindows8.1にインストールして、RMeCabで簡単な日本語文章を、品詞分解するところまでやってみたいと思います。
基本的用語について
R言語は、ドットインストールでレッスン動画がありますので、詳しくはそちらを参考にしてください。
また、MeCab(めかぶ)とはオープンソースの形態素解析エンジンのことです。RMeCab(あーるめかぶ)とは、そのR言語にもとづいて形態素解析をするオープンソースのこと。
ゼロから始める形態素解析
では手順を説明していきましょう。
1.R言語(R-3.1.2 for Windows)のインストール
まず、筑波大学のサイトにアクセスします。Download R 3.1.2 for Windowsをクリックするとインストーラのダウンロードが始まります。
画面の指示に従って、インストール作業をすすめていくと、最終的にデスクトップ上に”R”のアイコンが表示されます。
画像はそのアイコンをクリックして、
help()
とコマンドを打ち込んだところです。オンライン上でRのヘルプ機能が表示されます。
2.MeCabのインストール
R言語をインストールすると、次はRMeCabのインストール…といきたいところですが、その前に、形態素解析エンジンのMeCabをインストール。
Googleのプロジェクトからmecab-0.996.exeをクリックすると、インストーラのダウンロードが始まります。
これも画面の指示に従って、インストール作業をすすめていくと、デスクトップにMeCab専用のアイコンが表示されます。
なお、インストール作業の途中で、辞書の文字コードを聞かれます。自分のは”SHIFT-JIS”を選択しました。
3.RMeCabのインストール
Rのコンソール画面を開いて、次のコマンドを打ち込んで、RMeCabをインストールします。
install.packages ("RMeCab", repos = "http://rmecab.jp/R")
4.パッケージの読み込み
コンソール画面のメニュバーで、[パッケージ]→[パッケージの読み込み]→[RMeCab]を選択します。これで、Rによる形態素解析をする準備ができました。
5.動作の確認
実際に、「すもももももももものうち」という文章で、品詞分解を行ってみましょう。RMeCabCとは、RMeCabパッケージに付属している関数で、文字列の形態素解析を行います。
RMeCabC("すもももももももものうち") [[1]] 名詞 "すもも" [[2]] 助詞 "も" [[3]] 名詞 "もも" [[4]] 助詞 "も" [[5]] 名詞 "もも" [[6]] 助詞 "の" [[7]] 名詞 "うち"
その他
今回は、Windowsマシンにインストールしましたが、その他にMacやLinuxでもインストールすることができます。
また、RMeCabのインストールは、コンソール画面から行いましたが、ほかに徳島大学のサイトからダウンロードする方法もあります。
下記の「参考サイト」にて、くわしく説明されています。興味のある方はどうぞ。
〔参考サイト〕