34
ChaKi.NETでコーパスを検索するまで の流れ ChaKi.NETのインストール 環境によっては.NET Frameworkのインストールを求め られることがあります テキストファイルをChaKi.NETにインポートできる 形式に変換 あらかじめMeCabCaboChaをインストールしておいて ください コーパスをインポート(データベースファイル作成) データベースファイルを検索対象として指定 1

Chaki setup-nlp-seminar090930

Embed Size (px)

Citation preview

Page 1: Chaki setup-nlp-seminar090930

ChaKi.NETでコーパスを検索するまでの流れ

• ChaKi.NETのインストール

– 環境によっては.NET Frameworkのインストールを求められることがあります

• テキストファイルをChaKi.NETにインポートできる形式に変換

– あらかじめMeCabとCaboChaをインストールしておいてください

• コーパスをインポート(データベースファイル作成)

• データベースファイルを検索対象として指定

1

Page 2: Chaki setup-nlp-seminar090930

ChaKi.NETのインストール

2

Page 3: Chaki setup-nlp-seminar090930

Setup.msiをダブルクリックして実行します

3

Page 4: Chaki setup-nlp-seminar090930

セキュリティの警告が出ることがあります。「実行」をクリック

4

Page 5: Chaki setup-nlp-seminar090930

「次へ」をクリック

5

Page 6: Chaki setup-nlp-seminar090930

「次へ」をクリック

6

Page 7: Chaki setup-nlp-seminar090930

「次へ」をクリック

7

Page 8: Chaki setup-nlp-seminar090930

しばらくお待ちください

8

Page 9: Chaki setup-nlp-seminar090930

「次へ」をクリック

9

Page 10: Chaki setup-nlp-seminar090930

テキストファイルをChaKi.NETにインポートできる形式に変換する

10

Page 11: Chaki setup-nlp-seminar090930

11

ChaKi.NETにインポートしたいテキストファイルを用意します。

ここでは例として、c:¥NAISTにインストールされているhana.txtを使用します。

Page 12: Chaki setup-nlp-seminar090930

12

このような、生のテキストです

Page 13: Chaki setup-nlp-seminar090930

TextFormatterをダブルクリックして実行します

13

Page 14: Chaki setup-nlp-seminar090930

14

変換したいテキストファイルをTextFormatterのウィンドウにドラッグ&ドロップします

Page 15: Chaki setup-nlp-seminar090930

15

すると自動的にファイル名が入力されます

Page 16: Chaki setup-nlp-seminar090930

変換結果格納ファイル名について

• 格納先ファイル名は、変換元ファイル名の拡張子を”.mecab”および”.cabocha”で置き換えたものになります

• 「参照」ボタンをクリックすることで格納先ファイル名を変更できますが、必ずそれぞれ”.mecab”と”.cabocha”で終わるファイル名としてください

16

変換元: c:¥NAIST¥hana.txt格納先(MeCab): c:¥NAIST¥hana.mecab格納先(CaboCha): c:¥NAIST¥hana.cabocha

Page 17: Chaki setup-nlp-seminar090930

「変換」ボタンをクリックすると変換処理が始まります。

しばらくお待ちください。

17

Page 18: Chaki setup-nlp-seminar090930

18

変換が完了しました。

Page 19: Chaki setup-nlp-seminar090930

19

これらが出力されたファイルです

Page 20: Chaki setup-nlp-seminar090930

コーパスのインポート

変換結果ファイルからデータベースファイルを作ります

20

Page 21: Chaki setup-nlp-seminar090930

Chaki.NETを実行します

21

Page 22: Chaki setup-nlp-seminar090930

メニューからCreate SQLite Corpus をクリック

22

Page 23: Chaki setup-nlp-seminar090930

Input File の 「Browse...」をクリック

23

Page 24: Chaki setup-nlp-seminar090930

24

C:¥NAISTに移動し、hana.cabochaを選択して「開く」をクリック

MeCabファイルをインポートする場合には、「ファイルの種類」を「MeCab files」にしてか

ら.mecabファイルを選択します

Page 25: Chaki setup-nlp-seminar090930

25

Input Character Code: UTF-8Input Type: Mecab|Cabocha

とします。

TextFormatterの出力文字コードはUTF-8です。

Page 26: Chaki setup-nlp-seminar090930

Output DBの「Browse...」をクリック

26

Page 27: Chaki setup-nlp-seminar090930

出力されるデータベースファイル名を指定します。ここではhana.dbと入

力して「開く」をクリック。

27

Page 28: Chaki setup-nlp-seminar090930

「Launch」 をクリック

28

Page 29: Chaki setup-nlp-seminar090930

29

しばらくお待ちください。変換が完了したら、Enter

キーを押してこのウィンドウを閉じます。

Page 30: Chaki setup-nlp-seminar090930

出力されたデータベースファイル

Create SQLite Corpus のウィンドウはもう閉じて構いません

30

Page 31: Chaki setup-nlp-seminar090930

データベースファイルを検索対象として指定する

31

Page 32: Chaki setup-nlp-seminar090930

Corpusタブの「Add...」ボタンをクリック

32

Page 33: Chaki setup-nlp-seminar090930

33

先ほど作成したデータベースファイルを指定して「開く」

Page 34: Chaki setup-nlp-seminar090930

検索対象 Corpus List に追加されました

34