Chaki setup-nlp-seminar090930

Preview:

Citation preview

ChaKi.NETでコーパスを検索するまでの流れ

• ChaKi.NETのインストール

– 環境によっては.NET Frameworkのインストールを求められることがあります

• テキストファイルをChaKi.NETにインポートできる形式に変換

– あらかじめMeCabとCaboChaをインストールしておいてください

• コーパスをインポート(データベースファイル作成)

• データベースファイルを検索対象として指定

1

ChaKi.NETのインストール

2

Setup.msiをダブルクリックして実行します

3

セキュリティの警告が出ることがあります。「実行」をクリック

4

「次へ」をクリック

5

「次へ」をクリック

6

「次へ」をクリック

7

しばらくお待ちください

8

「次へ」をクリック

9

テキストファイルをChaKi.NETにインポートできる形式に変換する

10

11

ChaKi.NETにインポートしたいテキストファイルを用意します。

ここでは例として、c:¥NAISTにインストールされているhana.txtを使用します。

12

このような、生のテキストです

TextFormatterをダブルクリックして実行します

13

14

変換したいテキストファイルをTextFormatterのウィンドウにドラッグ&ドロップします

15

すると自動的にファイル名が入力されます

変換結果格納ファイル名について

• 格納先ファイル名は、変換元ファイル名の拡張子を”.mecab”および”.cabocha”で置き換えたものになります

• 「参照」ボタンをクリックすることで格納先ファイル名を変更できますが、必ずそれぞれ”.mecab”と”.cabocha”で終わるファイル名としてください

16

変換元: c:¥NAIST¥hana.txt格納先(MeCab): c:¥NAIST¥hana.mecab格納先(CaboCha): c:¥NAIST¥hana.cabocha

「変換」ボタンをクリックすると変換処理が始まります。

しばらくお待ちください。

17

18

変換が完了しました。

19

これらが出力されたファイルです

コーパスのインポート

変換結果ファイルからデータベースファイルを作ります

20

Chaki.NETを実行します

21

メニューからCreate SQLite Corpus をクリック

22

Input File の 「Browse...」をクリック

23

24

C:¥NAISTに移動し、hana.cabochaを選択して「開く」をクリック

MeCabファイルをインポートする場合には、「ファイルの種類」を「MeCab files」にしてか

ら.mecabファイルを選択します

25

Input Character Code: UTF-8Input Type: Mecab|Cabocha

とします。

TextFormatterの出力文字コードはUTF-8です。

Output DBの「Browse...」をクリック

26

出力されるデータベースファイル名を指定します。ここではhana.dbと入

力して「開く」をクリック。

27

「Launch」 をクリック

28

29

しばらくお待ちください。変換が完了したら、Enter

キーを押してこのウィンドウを閉じます。

出力されたデータベースファイル

Create SQLite Corpus のウィンドウはもう閉じて構いません

30

データベースファイルを検索対象として指定する

31

Corpusタブの「Add...」ボタンをクリック

32

33

先ほど作成したデータベースファイルを指定して「開く」

検索対象 Corpus List に追加されました

34

Recommended