R言語(R-3.1.2 for Windows)のインストールからRMeCabによる日本語文章の形態素解析（品詞分解）まで

2014年12月29日2017年11月18日

そろそろ本気でテキストマイニングをやりたくなってきました。そこで今回は、全くゼロの状態から、R言語をWindows8.1にインストールして、RMeCabで簡単な日本語文章を、品詞分解するところまでやってみたいと思います。

基本的用語について

R言語は、ドットインストールでレッスン動画がありますので、詳しくはそちらを参考にしてください。

また、MeCab（めかぶ）とはオープンソースの形態素解析エンジンのことです。RMeCab（あーるめかぶ）とは、そのR言語にもとづいて形態素解析をするオープンソースのこと。

では手順を説明していきましょう。

まず、筑波大学のサイトにアクセスします。Download R 3.1.2 for Windowsをクリックするとインストーラのダウンロードが始まります。

画面の指示に従って、インストール作業をすすめていくと、最終的にデスクトップ上に”R”のアイコンが表示されます。

画像はそのアイコンをクリックして、

help()

とコマンドを打ち込んだところです。オンライン上でRのヘルプ機能が表示されます。

R言語をインストールすると、次はRMeCabのインストール…といきたいところですが、その前に、形態素解析エンジンのMeCabをインストール。

Googleのプロジェクトからmecab-0.996.exeをクリックすると、インストーラのダウンロードが始まります。

これも画面の指示に従って、インストール作業をすすめていくと、デスクトップにMeCab専用のアイコンが表示されます。

なお、インストール作業の途中で、辞書の文字コードを聞かれます。自分のは”SHIFT-JIS”を選択しました。

Rのコンソール画面を開いて、次のコマンドを打ち込んで、RMeCabをインストールします。

install.packages ("RMeCab", repos = "http://rmecab.jp/R")

コンソール画面のメニュバーで、[パッケージ]→[パッケージの読み込み]→[RMeCab]を選択します。これで、Rによる形態素解析をする準備ができました。

実際に、「すもももももももものうち」という文章で、品詞分解を行ってみましょう。RMeCabCとは、RMeCabパッケージに付属している関数で、文字列の形態素解析を行います。

RMeCabC("すもももももももものうち")

[[1]]
    名詞 
"すもも" 

[[2]]
助詞 
"も" 

[[3]]
  名詞 
"もも" 

[[4]]
助詞 
"も" 

[[5]]
  名詞 
"もも" 

[[6]]
助詞 
"の" 

[[7]]
  名詞 
"うち"

今回は、Windowsマシンにインストールしましたが、その他にMacやLinuxでもインストールすることができます。

また、RMeCabのインストールは、コンソール画面から行いましたが、ほかに徳島大学のサイトからダウンロードする方法もあります。

下記の「参考サイト」にて、くわしく説明されています。興味のある方はどうぞ。

〔参考サイト〕

この記事が気に入ったら
フォローしてね！

Follow @echizenya_yota

よかったらシェアしてね！