View
1.015
Download
1
Category
Preview:
Citation preview
ChaKi.NETでコーパスを検索するまでの流れ
• ChaKi.NETのインストール
– 環境によっては.NET Frameworkのインストールを求められることがあります
• テキストファイルをChaKi.NETにインポートできる形式に変換
– あらかじめMeCabとCaboChaをインストールしておいてください
• コーパスをインポート(データベースファイル作成)
• データベースファイルを検索対象として指定
1
ChaKi.NETのインストール
2
Setup.msiをダブルクリックして実行します
3
セキュリティの警告が出ることがあります。「実行」をクリック
4
「次へ」をクリック
5
「次へ」をクリック
6
「次へ」をクリック
7
しばらくお待ちください
8
「次へ」をクリック
9
テキストファイルをChaKi.NETにインポートできる形式に変換する
10
11
ChaKi.NETにインポートしたいテキストファイルを用意します。
ここでは例として、c:¥NAISTにインストールされているhana.txtを使用します。
12
このような、生のテキストです
TextFormatterをダブルクリックして実行します
13
14
変換したいテキストファイルをTextFormatterのウィンドウにドラッグ&ドロップします
15
すると自動的にファイル名が入力されます
変換結果格納ファイル名について
• 格納先ファイル名は、変換元ファイル名の拡張子を”.mecab”および”.cabocha”で置き換えたものになります
• 「参照」ボタンをクリックすることで格納先ファイル名を変更できますが、必ずそれぞれ”.mecab”と”.cabocha”で終わるファイル名としてください
16
変換元: c:¥NAIST¥hana.txt格納先(MeCab): c:¥NAIST¥hana.mecab格納先(CaboCha): c:¥NAIST¥hana.cabocha
「変換」ボタンをクリックすると変換処理が始まります。
しばらくお待ちください。
17
18
変換が完了しました。
19
これらが出力されたファイルです
コーパスのインポート
変換結果ファイルからデータベースファイルを作ります
20
Chaki.NETを実行します
21
メニューからCreate SQLite Corpus をクリック
22
Input File の 「Browse...」をクリック
23
24
C:¥NAISTに移動し、hana.cabochaを選択して「開く」をクリック
MeCabファイルをインポートする場合には、「ファイルの種類」を「MeCab files」にしてか
ら.mecabファイルを選択します
25
Input Character Code: UTF-8Input Type: Mecab|Cabocha
とします。
TextFormatterの出力文字コードはUTF-8です。
Output DBの「Browse...」をクリック
26
出力されるデータベースファイル名を指定します。ここではhana.dbと入
力して「開く」をクリック。
27
「Launch」 をクリック
28
29
しばらくお待ちください。変換が完了したら、Enter
キーを押してこのウィンドウを閉じます。
出力されたデータベースファイル
Create SQLite Corpus のウィンドウはもう閉じて構いません
30
データベースファイルを検索対象として指定する
31
Corpusタブの「Add...」ボタンをクリック
32
33
先ほど作成したデータベースファイルを指定して「開く」
検索対象 Corpus List に追加されました
34
Recommended