Upload
phamtuyen
View
232
Download
0
Embed Size (px)
Citation preview
Wekaを用いた機械学習入門
佐藤 琢磨 廣安 知之 日和 悟
2014年 10月 23日
IS Report No. 2015111203
ReportMedical Information System Laboratory
Abstract
全世界のデータ量は 1日にエキサバイト単位で増加している.そのため,これらのビッグデータをも
とに誰もがコーディングを必要とせず,機械学習やデータマイニングを行うソフトウェアであるWeka
(Weka:Waikato Environment for Knowledge Analysis)が注目を集めている.本稿ではこのニュー
ジーランドのWaikato大学が開発を行ったWekaの導入方法,操作方法に関して述べる.なお本稿は
「フリーソフトではじめる機械学習入門」(森北出版株式会社)1) ) を参考に作成している.
目 次
第 1章 Wekaの導入 . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
第 2章 Wekaを用いた機械学習 . . . . . . . . . . . . . . . . . . . . . . 4
2.1 データセットの読み込み . . . . . . . . . . . . . . . . . . . . . . 5
2.2 識別器の選択とパラメータ設定 . . . . . . . . . . . . . . . . . . . 6
2.3 識別器における学習と識別 . . . . . . . . . . . . . . . . . . . . . 8
第 3章 付録 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
3.1 特徴量空間のプロット . . . . . . . . . . . . . . . . . . . . . . . 10
3.2 パッケージの追加 . . . . . . . . . . . . . . . . . . . . . . . . . 10
第 1章 Wekaの導入
WekaはWaikato大学で開発されGPL(General Public License)ライセンスで公開されている.GPL
ライセンスとはプログラムの実行,改良,再頒布は自由であり,再頒布する際にその再頒布物もGPL
ライセンスでなければならないというライセンスのことである.以下にWekaのインストール方法を
示す.
step.1 以下のサイトにアクセスしDownloadをクリック
http://www.cs.waikato.ac.nz/ml/weka/
Fig. 1.1 Wekaの入手先(自作)
step.2 各プラットホームに応じたファイルをダウンロードしインストールする
Fig. 1.2 Wekaのダウンロード(自作)
2
第 1 章 Wekaの導入
step.3 Wekaを起動すると以下のウィンドウが表示される
Fig. 1.3 Wekaの起動(自作)
また日本語の特徴量名をもつデータセットを用いる際は,文字化けを防ぐためにエンコードを変更
する必要がある.この手順を以下に示す.
step.4 Wekaインストールディレクトリ内のRunWeka.iniをテキストエディタで開く
step.5 32行目の fileEncoding=Cp1252を fileEncoding=utf-8に変更する
Fig. 1.4 エンコードの変更(自作)
3
第 2章 Wekaを用いた機械学習
本稿ではWekaを用いた機械学習について説明する.教師あり学習は学習フェーズと識別フェーズ
の 2種類のフェーズから成り立つ.学習フェーズとは識別器をデータセットにフィットさせるフェー
ズであり,識別フェーズはデータセットにフィットさせた識別器をもとに未知のデータを識別させる
フェーズである.Wekaではこれらのフェーズを同時に実行することが可能である.以下にWekaを用
いた教師あり学習とクロスバリデーションを用いた識別率の算出手順を示す.またデータセットには
Weka3.7に付属の iris.arffを用いる.なおこのデータセットはアヤメの花の分類をするものでWeka
がインストールされたディレクトリ内の dataディレクトリに保存されている.このデータセットの特
徴量は sepal length:がく片の長さ [cm],sepal width:がく片の幅 [cm],petal length:花弁の長さ [cm],
petal width:花弁の幅 [cm]であり,Iris Setosa ,Iris Versicolour,Iris Virginicaの 3クラスのラベル
が付けられている.
Fig. 2.1 教師あり学習の流れ(自作)
4
2.1データセットの読み込み 第 2 章 Wekaを用いた機械学習
2.1 データセットの読み込み
step.1 Wekaを起動しウィンドウを表示させ,Explorerを選択
Fig. 2.2 Explorerの起動(自作)
step.2 Open fileから iris.arffを選択 (csvでも可)
Fig. 2.3 データセットの読み込みボタン(自作)
5
2.2識別器の選択とパラメータ設定 第 2 章 Wekaを用いた機械学習
2.2 識別器の選択とパラメータ設定
以下に識別器の選択と各識別器のパラメータの設定方法に関して述べる.本稿では識別器に決定木
を用いるが,その他の識別器を用いる場合でも手順は同様である.
step.1 Classifyのタブを選択
Fig. 2.4 教師あり学習画面の表示(自作)
step.2 Classifierの Chooseから識別器を選択
• C4.5(決定木):trees¥J48
• サポートベクターマシン:functions¥LibSVM
• ベイジアンネットワーク:bayes¥BayesNet
Fig. 2.5 識別器の選択(自作)
6
2.2識別器の選択とパラメータ設定 第 2 章 Wekaを用いた機械学習
step.3 Fig. 3.3の赤枠部分をクリックし識別器のパラメータ設定ウィンドウを表示させ,パラメー
タを変更
Fig. 2.6 パラメータの設定(自作)
step.4 Moreをクリックすると識別器に関する参考文献やパラメータの説明を見ることができる
Fig. 2.7 パラメータ設定ウィンドウにおける参考文献,パラメータの表示(自作)
7
2.3識別器における学習と識別 第 2 章 Wekaを用いた機械学習
2.3 識別器における学習と識別
step.1 Test optionsから Cross-Validationを選択し,Folds数を入力する
Fig. 2.8 Cross-Validationの設定(自作)
step.2 Startをクリックするとクロスバリデーションによる学習と識別が行われ結果が表示される
Fig. 2.9 識別結果の表示(自作)
8
2.3識別器における学習と識別 第 2 章 Wekaを用いた機械学習
また iris.arffデータセット識別の結果は以下のようになる.
Table. 2.1 各被験者の動作数
Class Precison[%] Recall[%] F-Measure[%]
Iris Setosa 100 98.0 99.0
Iris Versicolour 94.0 94.0 94.0
Iris Virginica 94.1 96.0 95.0
識別器を決定木としている場合,学習された決定木を表示させることができる.
step.3 赤枠部分を右クリックし,Visualize treeを選択
Fig. 2.10 決定木の表示(自作)
9
第 3章 付録
3.1 特徴量空間のプロット
Weka3.7以降ではVisualoze 3Dのタブを選択すると特徴量空間をプロットすることができる.
Fig. 3.1 特徴量空間プロットの作成(自作)
3.2 パッケージの追加
step.1 Wekaを起動し,Toolsタブの Packege managerを選択
Fig. 3.2 Packege manageの起動(自作)
10
3.2パッケージの追加 第 3 章 付録
step.2 パッケージを選択してインストールする
Fig. 3.3 パッケージのインストール(自作)
11
参考文献
1) 荒木雅弘. フリーソフトではじめる機械学習. 森北出版株式会社, 2015.
12