コーパス分析ツールの選択肢の一つとしての CasualConc - 2015...

Preview:

Citation preview

コーパス分析ツールの選択肢の一つとしての CasualConc

今尾 康裕大阪大学

本日の目的

新しい CasualConc のご紹介

選択肢の一つとしてCasualConc も考えてください

本日のお題目

• CasualConc とは?

• 現行バージョン開発に至るまで• 新バージョンの機能• 研究への応用と今後

CasualConc とは?

Mac OS X 用コンコーダンサー

基本機能• KWIC 検索

• 単語・n-gram リスト作成

• コロケーション表• ファイルをグループとして管理• ファイルごとの頻度表(指定文字列)• SQLite を使った高速検索

基本機能• KWIC 検索

• 単語・n-gram リスト作成

• コロケーション表• ファイルをグループとして管理• ファイルごとの頻度表(指定文字列)• SQLite を使った高速検索

めざすところはMac らしいアプリケーション

開発の経緯

Conc

今世紀初頭でまともなコンコーダンサーと言えば

Windows 用のものしかなかった

TXTANA

WordSmith Tools

MonoConc Pro

Concordance

Mac で使えるコンコーダンサーが現れた!

AntConc

X11 依存のためお世辞にも使えるアプリケーションとは

言えなかった

そのような状況で自らコンコーダンサーを作る試みをはじめた

まあ、Javascript でしょ

痕跡

ただ、ローカルファイルを扱うのが難しかった

Ruby というスクリプト言語の存在を知る

OS X (Leopard) で Ruby にネイティブインターフェイスがつけられるアプリケーションブリッジ標準搭載

2008 年 CasualConc リリース

Mac らしいインターフェイス

WordSmith Tools と TXTANA の機能で自分が使いたいものを移植

SQLite データベースを使った高速検索

用例検索が主目的

その後改良を重ね現在に至る

現行バージョン

なぜ新バージョン?

開発に利用しているブリッジアプリケーションRubyCocoa の開発が止まっている

最新の OS X では開発環境が整わない

ブリッジアプリケーションならではの問題が顕在化してきている

初期の頃からの古いコードが多い

CasualConc 2.0

RubyCocoa 後継の RubyMotion でほぼ一から書き直し

基本機能は継承• KWIC 検索

• 単語・n-gram リスト作成

• コロケーション表• ファイルをグループとして管理• ファイルごとの頻度表(指定文字列)• SQLite を使った高速検索

Concord (KWIC)

Word Count

Word Count (sorting)

Word Count (filtering with -ly)

Collocation

(Word) Cluster

Basic File Information

Word Frequency (by file/corpus)

TF-IDF

Key Group Frequency

Collocation Frequency

ただ問題も

文字列処理が遅くなった

並列処理を導入

スクリプトの書き直しでの高速化

新機能

OS 標準 tagger と TreeTagger との連携

統計環境 R との連携

Mann-Whitney-U と Random Forest を利用した特徴語抽出

Mann-Whitney-U

Random Forest

統計環境 R との連携

Mann-Whitney-U と Random Forest を利用した特徴語抽出

頻度表の視覚化・分析

Word Cloud

Line Chart

Bar Chart

Pie Chart

Scatter Plot

Multi-dimensionalScaling (MDS)

Cluster Analysis

CorrespondenceAnalysis

Principal ComponentAnalysis

Network Analysis

Concordance Plot

グラフは PDF

統計値など

R のスクリプトを確認、変更、再実行

R のスクリプトとデータを保存可能

おまけ的機能

複数のファイル・ファイルグループからすべてにある単語、それぞれにしかない単語を

抜き出す

Vocab Profiler

正規表現練習

単語リスト結合

研究への応用

目指している方向性

研究初期段階での探索的な作業の簡略化

本格的な分析への下準備

データの可視化

コーパス(ファイルグループ)選択

頻度表作成(stop words/lemma 処理)

Random Forest

Random Forest の結果で抽出

もう一つ

コーパス

ICNALE 学習者(L2 使用者)

ICNALE 英語母語使用者

Reporting Verbs と-ly で終わる Adverbs の

コロケーションテーブルを作成

コロケーションテーブル

分析

CasualConc のネットワーク分析ツールで作図

NNS と NS を分けて作成

ネットワーク分析

Reporting Verbs - Adverbs

ENSNNS

今後の方向性

インターフェイスの日本語化

日本語マニュアルの整備

さらなる機能の追加

具体的な応用例の提示

Recommended