14
Weka を用いた機械学習入門 佐藤 琢磨 廣安 知之 日和 悟 2014 10 23 IS Report No. 2015111203 Report Medical Information System Laboratory

20160307 weka

Embed Size (px)

Citation preview

Page 1: 20160307 weka

Wekaを用いた機械学習入門   

佐藤 琢磨 廣安 知之 日和 悟   

2014年 10月 23日   

IS Report No. 2015111203   

ReportMedical Information  System Laboratory  

Page 2: 20160307 weka

Abstract

全世界のデータ量は 1日にエキサバイト単位で増加している.そのため,これらのビッグデータをも

とに誰もがコーディングを必要とせず,機械学習やデータマイニングを行うソフトウェアであるWeka

(Weka:Waikato Environment for Knowledge Analysis)が注目を集めている.本稿ではこのニュー

ジーランドのWaikato大学が開発を行ったWekaの導入方法,操作方法に関して述べる.なお本稿は

「フリーソフトではじめる機械学習入門」(森北出版株式会社)1) ) を参考に作成している.

Page 3: 20160307 weka

目 次

第 1章 Wekaの導入 . . . . . . . . . . . . . . . . . . . . . . . . . . . 2

第 2章 Wekaを用いた機械学習 . . . . . . . . . . . . . . . . . . . . . . 4

2.1 データセットの読み込み . . . . . . . . . . . . . . . . . . . . . . 5

2.2 識別器の選択とパラメータ設定 . . . . . . . . . . . . . . . . . . . 6

2.3 識別器における学習と識別 . . . . . . . . . . . . . . . . . . . . . 8

第 3章 付録 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

3.1 特徴量空間のプロット . . . . . . . . . . . . . . . . . . . . . . . 10

3.2 パッケージの追加 . . . . . . . . . . . . . . . . . . . . . . . . . 10

Page 4: 20160307 weka

第 1章 Wekaの導入

WekaはWaikato大学で開発されGPL(General Public License)ライセンスで公開されている.GPL

ライセンスとはプログラムの実行,改良,再頒布は自由であり,再頒布する際にその再頒布物もGPL

ライセンスでなければならないというライセンスのことである.以下にWekaのインストール方法を

示す.

step.1 以下のサイトにアクセスしDownloadをクリック

http://www.cs.waikato.ac.nz/ml/weka/

Fig. 1.1 Wekaの入手先(自作)

step.2 各プラットホームに応じたファイルをダウンロードしインストールする

Fig. 1.2 Wekaのダウンロード(自作)

2

Page 5: 20160307 weka

第 1 章 Wekaの導入

step.3 Wekaを起動すると以下のウィンドウが表示される

Fig. 1.3 Wekaの起動(自作)

また日本語の特徴量名をもつデータセットを用いる際は,文字化けを防ぐためにエンコードを変更

する必要がある.この手順を以下に示す.

step.4 Wekaインストールディレクトリ内のRunWeka.iniをテキストエディタで開く

step.5 32行目の fileEncoding=Cp1252を fileEncoding=utf-8に変更する

Fig. 1.4 エンコードの変更(自作)

3

Page 6: 20160307 weka

第 2章 Wekaを用いた機械学習

本稿ではWekaを用いた機械学習について説明する.教師あり学習は学習フェーズと識別フェーズ

の 2種類のフェーズから成り立つ.学習フェーズとは識別器をデータセットにフィットさせるフェー

ズであり,識別フェーズはデータセットにフィットさせた識別器をもとに未知のデータを識別させる

フェーズである.Wekaではこれらのフェーズを同時に実行することが可能である.以下にWekaを用

いた教師あり学習とクロスバリデーションを用いた識別率の算出手順を示す.またデータセットには

Weka3.7に付属の iris.arffを用いる.なおこのデータセットはアヤメの花の分類をするものでWeka

がインストールされたディレクトリ内の dataディレクトリに保存されている.このデータセットの特

徴量は sepal length:がく片の長さ [cm],sepal width:がく片の幅 [cm],petal length:花弁の長さ [cm],

petal width:花弁の幅 [cm]であり,Iris Setosa ,Iris Versicolour,Iris Virginicaの 3クラスのラベル

が付けられている.

Fig. 2.1 教師あり学習の流れ(自作)

4

Page 7: 20160307 weka

2.1データセットの読み込み 第 2 章 Wekaを用いた機械学習

2.1 データセットの読み込み

step.1 Wekaを起動しウィンドウを表示させ,Explorerを選択

Fig. 2.2 Explorerの起動(自作)

step.2 Open fileから iris.arffを選択 (csvでも可)

Fig. 2.3 データセットの読み込みボタン(自作)

5

Page 8: 20160307 weka

2.2識別器の選択とパラメータ設定 第 2 章 Wekaを用いた機械学習

2.2 識別器の選択とパラメータ設定

以下に識別器の選択と各識別器のパラメータの設定方法に関して述べる.本稿では識別器に決定木

を用いるが,その他の識別器を用いる場合でも手順は同様である.

step.1 Classifyのタブを選択

Fig. 2.4 教師あり学習画面の表示(自作)

step.2 Classifierの Chooseから識別器を選択

• C4.5(決定木):trees¥J48

• サポートベクターマシン:functions¥LibSVM

• ベイジアンネットワーク:bayes¥BayesNet

Fig. 2.5 識別器の選択(自作)

6

Page 9: 20160307 weka

2.2識別器の選択とパラメータ設定 第 2 章 Wekaを用いた機械学習

step.3 Fig. 3.3の赤枠部分をクリックし識別器のパラメータ設定ウィンドウを表示させ,パラメー

タを変更

 

Fig. 2.6 パラメータの設定(自作)

step.4 Moreをクリックすると識別器に関する参考文献やパラメータの説明を見ることができる 

Fig. 2.7 パラメータ設定ウィンドウにおける参考文献,パラメータの表示(自作)

7

Page 10: 20160307 weka

2.3識別器における学習と識別 第 2 章 Wekaを用いた機械学習

2.3 識別器における学習と識別

step.1 Test optionsから Cross-Validationを選択し,Folds数を入力する 

Fig. 2.8 Cross-Validationの設定(自作)

step.2 Startをクリックするとクロスバリデーションによる学習と識別が行われ結果が表示される

 

Fig. 2.9 識別結果の表示(自作)

8

Page 11: 20160307 weka

2.3識別器における学習と識別 第 2 章 Wekaを用いた機械学習

また iris.arffデータセット識別の結果は以下のようになる.

Table. 2.1 各被験者の動作数

Class Precison[%]  Recall[%] F-Measure[%]

Iris Setosa 100 98.0 99.0

Iris Versicolour 94.0 94.0 94.0

Iris Virginica 94.1 96.0 95.0

識別器を決定木としている場合,学習された決定木を表示させることができる.

step.3 赤枠部分を右クリックし,Visualize treeを選択

 

Fig. 2.10 決定木の表示(自作)

9

Page 12: 20160307 weka

第 3章 付録

3.1 特徴量空間のプロット

Weka3.7以降ではVisualoze 3Dのタブを選択すると特徴量空間をプロットすることができる.

Fig. 3.1 特徴量空間プロットの作成(自作)

3.2 パッケージの追加

step.1 Wekaを起動し,Toolsタブの Packege managerを選択

Fig. 3.2 Packege manageの起動(自作)

10

Page 13: 20160307 weka

3.2パッケージの追加 第 3 章 付録

step.2 パッケージを選択してインストールする

Fig. 3.3 パッケージのインストール(自作)

11

Page 14: 20160307 weka

参考文献

1) 荒木雅弘. フリーソフトではじめる機械学習. 森北出版株式会社, 2015.

12