1. TOPTOP
  2. Webサービス
  3. textminig

R言語(R-3.1.2 for Windows)のインストールからRMeCabによる日本語文章の形態素解析(品詞分解)まで

|

editor

そろそろ本気でテキストマイニングをやりたくなってきました。そこで今回は、全くゼロの状態から、R言語をWindows8.1にインストールして、RMeCabで簡単な日本語文章を、品詞分解するところまでやってみたいと思います。

基本的用語について

R言語は、ドットインストール(新しいタブで開く)でレッスン動画がありますので、詳しくはそちらを参考にしてください。

また、MeCab(めかぶ)(新しいタブで開く)とはオープンソースの形態素解析エンジンのことです。RMeCab(あーるめかぶ)とは、そのR言語にもとづいて形態素解析をするオープンソースのこと。

ゼロから始める形態素解析

では手順を説明していきましょう。

1.R言語(R-3.1.2 for Windows)のインストール

rmecab_1

まず、筑波大学のサイトにアクセスします。Download R 3.1.2 for Windowsをクリックするとインストーラのダウンロードが始まります。

画面の指示に従って、インストール作業をすすめていくと、最終的にデスクトップ上に”R”のアイコンが表示されます。

rmecab_2

画像はそのアイコンをクリックして、

help()

とコマンドを打ち込んだところです。オンライン上でRのヘルプ機能が表示されます。

2.MeCabのインストール

rmecab_3

R言語をインストールすると、次はRMeCabのインストール…といきたいところですが、その前に、形態素解析エンジンのMeCabをインストール。

Googleのプロジェクトからmecab-0.996.exeをクリックすると、インストーラのダウンロードが始まります。

これも画面の指示に従って、インストール作業をすすめていくと、デスクトップにMeCab専用のアイコンが表示されます。

rmecab_4

なお、インストール作業の途中で、辞書の文字コードを聞かれます。自分のは”SHIFT-JIS”を選択しました。

3.RMeCabのインストール

rmecab_5

Rのコンソール画面を開いて、次のコマンドを打ち込んで、RMeCabをインストールします。

install.packages ("RMeCab", repos = "http://rmecab.jp/R")

4.パッケージの読み込み

rmecab_6

コンソール画面のメニュバーで、[パッケージ]→[パッケージの読み込み]→[RMeCab]を選択します。これで、Rによる形態素解析をする準備ができました。

5.動作の確認

rmecab_7

実際に、「すもももももももものうち」という文章で、品詞分解を行ってみましょう。RMeCabCとは、RMeCabパッケージに付属している関数で、文字列の形態素解析を行います。

RMeCabC("すもももももももものうち")

[[1]]
    名詞 
"すもも" 

[[2]]
助詞 
"も" 

[[3]]
  名詞 
"もも" 

[[4]]
助詞 
"も" 

[[5]]
  名詞 
"もも" 

[[6]]
助詞 
"の" 

[[7]]
  名詞 
"うち" 

その他

今回は、Windowsマシンにインストールしましたが、その他にMacやLinuxでもインストールすることができます。

また、RMeCabのインストールは、コンソール画面から行いましたが、ほかに徳島大学のサイト(新しいタブで開く)からダウンロードする方法もあります。

下記の「参考サイト」にて、くわしく説明されています。興味のある方はどうぞ。

〔参考サイト〕