2021年1月25日月曜日

RStudioで形態素解析MeCabを使う

 概要

Rを用いたデータ分析で形態素解析をする必要があったのでその導入方法と使い方をメモしておきます。


前提とする環境

OS:Windows10 Pro

R実行環境:RStudio


インストール

インストールは以下のコマンドで行います。

> install.packages("RMeCab")
WARNING: Rtools is required to build R packages but is not currently installed. Please download and install the appropriate version of Rtools before proceeding:

https://cran.rstudio.com/bin/windows/Rtools/
Installing package into ‘C:/Users/ken/Documents/R/win-library/4.0’
(as ‘lib’ is unspecified)
Warning in install.packages :
  package ‘RMeCab’ is not available for this version of R

A version of this package for your version of R might be available elsewhere,
see the ideas at
https://cran.r-project.org/doc/manuals/r-patched/R-admin.html#Installing-packages

・・・あれ。インストール出来ない。
理由不明ですが古いバージョンはこれで出来たようなのですが最新バージョンはこれだけではダメです。

インストール(再度)

①MeCabインストール

まずMecabをインストールします。以下サイトから「mecab-0.996.exe」を取得してインストールしてください(インストーラーの案内に従ってやればOK)。

http://taku910.github.io/mecab/#download

②RへMeCabインストール

①が終わったらRStudioを起動してRへMeCabパッケージをインストールします。

<- as="" by="" from="" group="" select="" span="" sqldf="" sum="" tljk="">> install.packages("RMeCab", repos = "https://rmecab.jp/R")
WARNING: Rtools is required to build R packages but is not currently installed. Please download and install the appropriate version of Rtools before proceeding:

https://cran.rstudio.com/bin/windows/Rtools/
Installing package into ‘C:/Users/ken/Documents/R/win-library/4.0’
(as ‘lib’ is unspecified)
 URL 'https://rmecab.jp/R/bin/windows/contrib/4.0/RMeCab_1.06.zip' を試しています 
Content type 'application/zip' length 3173864 bytes (3.0 MB)
downloaded 3.0 MB

package ‘RMeCab’ successfully unpacked and MD5 sums checked

The downloaded binary packages are in
	C:\Users\ken\AppData\Local\Temp\RtmpCk1cKN\downloaded_packages
デキター。

使い方

使い方は以下のとおりになります(定番)。

<- as="" by="" from="" group="" select="" span="" sqldf="" sum="" tljk="">> library(RMeCab)
> RMeCabC("すもももももももものうち")
[[1]]
    名詞 
"すもも" 

[[2]]
助詞 
"も" 

[[3]]
  名詞 
"もも" 

[[4]]
助詞 
"も" 

[[5]]
  名詞 
"もも" 

[[6]]
助詞 
"の" 

[[7]]
  名詞 
"うち"
> # 「unlisst」を使うと↓のようにすっきりと出力出来ます。
> RMeCabC("すもももももももものうち") %>% unlist
    名詞     助詞     名詞     助詞     名詞     助詞     名詞
"すもも"     "も"   "もも"     "も"   "もも"     "の"   "うち" 
> # データフレームの場合は「RMeCabDF」関数を使います。
> # ↓の例はデータフレームhogeの2番目の列の項目を形態素解析しています。
> hg <- RMeCabDF(hoge[, 2])
ということで、無事に動かす事が出来ました!


本日はここまでで。




0 件のコメント:

コメントを投稿

FX自動トレード_2021年6月実績

      概要 2021年6月が終わり、FX自動トレードによる収益実績を取り纏めましたので振り返ってみたいと思います。 2021年6月結果 2021年6月の実績は、実利利益額:\66,761、実績利益率は1.42%でした。 今月もボラが全く出ず。利益率の連続過去最低記録更新は免...