25
A Design of Web Scale Corpora Asahara and Maekawa はじめに Web コーパスと Web アーカイブ 先行研究 (一般企業) 先行研究 (研究機関ほか) 先行研究 (個人) 設計 四つの基盤技術 収集 構造化 利活用 保存 進捗 おわりに 謝辞 参考文献 Web を母集団にした 超大規模コーパスの設計 浅原 正幸 前川 喜久雄 国立国語研究所 February 28th 2013 February 28th 2013 1/25

2013 02-28-hcorpus

Embed Size (px)

Citation preview

Page 1: 2013 02-28-hcorpus

A Design of WebScale Corpora

Asahara andMaekawa

はじめに

Web コーパスとWeb アーカイブ先行研究 (一般企業)先行研究 (研究機関ほか)先行研究 (個人)

設計四つの基盤技術収集構造化利活用保存

進捗

おわりに

謝辞

参考文献

Web を母集団にした超大規模コーパスの設計

浅原 正幸 前川 喜久雄

国立国語研究所

February 28th 2013

February 28th 2013 1/25

Page 2: 2013 02-28-hcorpus

A Design of WebScale Corpora

Asahara andMaekawa

はじめに

Web コーパスとWeb アーカイブ先行研究 (一般企業)先行研究 (研究機関ほか)先行研究 (個人)

設計四つの基盤技術収集構造化利活用保存

進捗

おわりに

謝辞

参考文献

はじめに – 研究の概要言語研究に資する 100億語規模の Web コーパスの構築

▶ BCCWJ(1億語)に出現しない稀な言語表現を被覆▶ 時候/分野に偏らず適切に 100億語をサンプリング▶ 実体のわからない言語生成者のプロファイリング▶ 形態論情報/係り受け情報の付与▶ 多様な利用環境の提供

February 28th 2013 2/25

Page 3: 2013 02-28-hcorpus

A Design of WebScale Corpora

Asahara andMaekawa

はじめに

Web コーパスとWeb アーカイブ先行研究 (一般企業)先行研究 (研究機関ほか)先行研究 (個人)

設計四つの基盤技術収集構造化利活用保存

進捗

おわりに

謝辞

参考文献

Web コーパスとWeb アーカイブ▶ Web アーカイブ ⊃ Web コーパス

▶ Web コーパス:Web 上のテキストの集積広義には Web データに基づく言語資源

▶ Web アーカイブ:Web ページの集積▶ 先行研究さまざまな機関・個人がそれぞれの目的に応じて Webデータに基づく言語資源を作成している。

▶ 一般企業:主に検索エンジン/ポータルサイト/ SNSサービス提供会社

▶ 研究機関・大学・官公庁▶ 個人

次ページ以降、Web データに基づく日本語の言語資源を示す。

February 28th 2013 3/25

Page 4: 2013 02-28-hcorpus

A Design of WebScale Corpora

Asahara andMaekawa

はじめに

Web コーパスとWeb アーカイブ先行研究 (一般企業)先行研究 (研究機関ほか)先行研究 (個人)

設計四つの基盤技術収集構造化利活用保存

進捗

おわりに

謝辞

参考文献

先行研究 (一般企業)

グーグル: 「Web 日本語 N グラム第 1版」▶ 元データ 2550億語/200億文規模の語彙表・n-gram データ。

▶ 2007年 7月のスナップショット。バイドゥ: 「Baiduブログ・掲示板時間軸コーパス」

▶ ブログや掲示板データを対象にした語彙表・n-gram データ

▶ 2000-2010年 7月にかけてのデータ計1000万文。

バイドゥ: 「Baidu絵文字入りモバイルウェブコーパス」▶ 2010年 6月までにモバイル検索向けに収集したデータを元に作成された語彙表・n-gram 統計情報。

February 28th 2013 4/25

Page 5: 2013 02-28-hcorpus

A Design of WebScale Corpora

Asahara andMaekawa

はじめに

Web コーパスとWeb アーカイブ先行研究 (一般企業)先行研究 (研究機関ほか)先行研究 (個人)

設計四つの基盤技術収集構造化利活用保存

進捗

おわりに

謝辞

参考文献

先行研究 (一般企業 cont’d)

楽天: 「楽天データセット」 (2012年 8月公開版)

▶ 楽天市場のレビュー (1660万レビュー)ほか。

ヤフー: 「Yahoo! 知恵袋」コーパス第二弾▶ 2004年 4月-2009年 4月の QA記事。質問数 2600万、回答数 7300万。

February 28th 2013 5/25

Page 6: 2013 02-28-hcorpus

A Design of WebScale Corpora

Asahara andMaekawa

はじめに

Web コーパスとWeb アーカイブ先行研究 (一般企業)先行研究 (研究機関ほか)先行研究 (個人)

設計四つの基盤技術収集構造化利活用保存

進捗

おわりに

謝辞

参考文献

先行研究 (研究機関ほか)

NICT: 「日本語係り受けデータベース」Version 1.1

▶ 6億ページ (約 430億文規模)の係り受け関係 4.8億対。

▶ 収集時期 2007年 5月 19日-11月 13日。京都大学: 「京都大学格フレーム」(Ver 1.0)

▶ 2009年 3月公開。▶ 約 16億文規模のテキストから自動構築した約 4万用言の格フレーム。

NDL: 「インターネット資料収集保存事業」▶ 国・自治体・法人・機構・大学などのサイトと電子雑誌の保存事業。

February 28th 2013 6/25

Page 7: 2013 02-28-hcorpus

A Design of WebScale Corpora

Asahara andMaekawa

はじめに

Web コーパスとWeb アーカイブ先行研究 (一般企業)先行研究 (研究機関ほか)先行研究 (個人)

設計四つの基盤技術収集構造化利活用保存

進捗

おわりに

謝辞

参考文献

先行研究 (個人)

矢田: 「日本語 Web コーパス 2010」▶ 2010年に ipadic-2.7.0 の見出し語をシードとし Yahoo! Web API から Web ページ取得。

▶ HTMLアーカイブ (1億ページ, 非圧縮3.25TB), テキストアーカイブ (非圧縮395GB), N-gramコーパス (文字,形態素)を配布。

▶ 収集、正規化に利用した各種プログラム類を公開。

February 28th 2013 7/25

Page 8: 2013 02-28-hcorpus

A Design of WebScale Corpora

Asahara andMaekawa

はじめに

Web コーパスとWeb アーカイブ先行研究 (一般企業)先行研究 (研究機関ほか)先行研究 (個人)

設計四つの基盤技術収集構造化利活用保存

進捗

おわりに

謝辞

参考文献

四つの基盤技術▶ Web コーパスの構築・利用に必要な四つの基盤技術

収集: Web ページの取得収集技術・収集指針・収集計画など。

構造化: (図書館情報学的)組織化+言語解析テキスト処理・言語処理・メタデータ相当情報付与。

利活用: 検索・統計取得・統計利用検索環境・統計情報の提供。

保存: (アーカイブ学的)組織化+永続保存アーカイブ情報処理。

次ページ以降、本計画における四つの基盤技術の詳細について示す。

February 28th 2013 8/25

Page 9: 2013 02-28-hcorpus

A Design of WebScale Corpora

Asahara andMaekawa

はじめに

Web コーパスとWeb アーカイブ先行研究 (一般企業)先行研究 (研究機関ほか)先行研究 (個人)

設計四つの基盤技術収集構造化利活用保存

進捗

おわりに

謝辞

参考文献

収集 (1/2)

本研究では自分で Web クローラを運用し網羅的に収集するRemort Harvesting (バルク収集) を実施。

▶ Remort HarvestingWeb クローラ, Web スパイダーによる一次収集

▶ バルク収集機械的に網羅的に収集する

▶ オンデマンド収集人手でコピーイメージを必要に応じて収集する

▶ Database Archivingデータベースを保持する機関からそのデータベース結果をそのまま提供してもらう収集

▶ Transactional Archiving一次収集結果を保持する機関が提供する Web API などを用いた二次収集

February 28th 2013 9/25

Page 10: 2013 02-28-hcorpus

A Design of WebScale Corpora

Asahara andMaekawa

はじめに

Web コーパスとWeb アーカイブ先行研究 (一般企業)先行研究 (研究機関ほか)先行研究 (個人)

設計四つの基盤技術収集構造化利活用保存

進捗

おわりに

謝辞

参考文献

収集 (2/2)

▶ Heritrix クローラ (3.1系) を利用▶ 米国 Internet Archive が中心となり開発しているクローラ。各国国立図書館が運用(日本では NDL)

▶ Web アーカイブの国際標準である WARC 形式で保存▶ クローラ運用計画

▶ 日本語の Web ページを収集。日本語であれば splog であろうが機械翻訳結果であろうが収集を行う。

▶ 3ヶ月ごとに 1億 URL をバルク収集 (約 1000万URL/週)

▶ 1年ごとに運用規則を見直し(網羅性を重視)

February 28th 2013 10/25

Page 11: 2013 02-28-hcorpus

A Design of WebScale Corpora

Asahara andMaekawa

はじめに

Web コーパスとWeb アーカイブ先行研究 (一般企業)先行研究 (研究機関ほか)先行研究 (個人)

設計四つの基盤技術収集構造化利活用保存

進捗

おわりに

謝辞

参考文献

構造化 (1/5)

構造化として以下の四つの処理を施す▶ 正規化

HTML タグ除去や文字コードの統制▶ 形態素解析単語分かち書きと形態論情報付与

▶ 係り受け解析文節分かち書きと係り受け関係付与

▶ レジスタ分析コーパスとしての標本空間を規定するための基礎情報付与

February 28th 2013 11/25

Page 12: 2013 02-28-hcorpus

A Design of WebScale Corpora

Asahara andMaekawa

はじめに

Web コーパスとWeb アーカイブ先行研究 (一般企業)先行研究 (研究機関ほか)先行研究 (個人)

設計四つの基盤技術収集構造化利活用保存

進捗

おわりに

謝辞

参考文献

構造化 (2/5)–正規化▶ グーグル 「Web 日本語 N グラム第 1 版」が採用している正規化手法を採用

▶ HTML タグの排除、文字・文字コードの統制・文境界の認定

▶ バイドゥなどが採用しているほか、日本語ウェブコーパスツールキット (nwc-toolkit)が矢田により公開されている

▶ 重複性・同一性検出▶ ハッシュ値比較による重複性の排除▶ WARC ファイル形式自体の差分保存機能▶ 統計値取得の標本空間を規定するための技術調査

February 28th 2013 12/25

Page 13: 2013 02-28-hcorpus

A Design of WebScale Corpora

Asahara andMaekawa

はじめに

Web コーパスとWeb アーカイブ先行研究 (一般企業)先行研究 (研究機関ほか)先行研究 (個人)

設計四つの基盤技術収集構造化利活用保存

進捗

おわりに

謝辞

参考文献

構造化 (3/5)–形態素解析▶ 様々な形態論情報の付与

▶ JUMAN: 益岡・田窪品詞体系 (JUMAN体系)▶ 国語研短単位・ UniDic 品詞体系▶ 国語研長単位・ UniDic 品詞体系

▶ 教師なし形態素解析による分かち書き情報▶ レジスタ依存分かち書き▶ レジスタ横断分かち書き

February 28th 2013 13/25

Page 14: 2013 02-28-hcorpus

A Design of WebScale Corpora

Asahara andMaekawa

はじめに

Web コーパスとWeb アーカイブ先行研究 (一般企業)先行研究 (研究機関ほか)先行研究 (個人)

設計四つの基盤技術収集構造化利活用保存

進捗

おわりに

謝辞

参考文献

構造化 (4/5)–係り受け解析▶ 様々な係り受け情報の付与解析器として CaboCha を利用

▶ 京都大学テキストコーパス基準▶ 益岡・田窪品詞体系ベース▶ UniDic 品詞体系ベース(短単位)

▶ BCCWJ 係り受けアノテーション基準▶ UniDic 品詞体系ベース(短単位)

▶ 半教師あり学習手法の検証

February 28th 2013 14/25

Page 15: 2013 02-28-hcorpus

A Design of WebScale Corpora

Asahara andMaekawa

はじめに

Web コーパスとWeb アーカイブ先行研究 (一般企業)先行研究 (研究機関ほか)先行研究 (個人)

設計四つの基盤技術収集構造化利活用保存

進捗

おわりに

謝辞

参考文献

構造化 (5/5)–レジスタ推定▶ 教師あり学習に基づくレジスタ情報

▶ 機械生成サイトの識別▶ BCCWJ メタデータ相当情報の自動付与

▶ 教師なし学習に基づくレジスタ情報▶ クラスタリングに基づく Web サイト/ページの分類▶ 生成されたクラスタに対する計量文体論的な分析

February 28th 2013 15/25

Page 16: 2013 02-28-hcorpus

A Design of WebScale Corpora

Asahara andMaekawa

はじめに

Web コーパスとWeb アーカイブ先行研究 (一般企業)先行研究 (研究機関ほか)先行研究 (個人)

設計四つの基盤技術収集構造化利活用保存

進捗

おわりに

謝辞

参考文献

利活用 (1/4)

▶ 構造化されたコーパスの利活用▶ 検索アプリケーションの提供人文系の研究者が扱える Web ベースの検索環境

▶ 語彙表・n-gram データの作成収集時期ごとの統計情報の提供

▶ 言語解析技術への利用

February 28th 2013 16/25

Page 17: 2013 02-28-hcorpus

A Design of WebScale Corpora

Asahara andMaekawa

はじめに

Web コーパスとWeb アーカイブ先行研究 (一般企業)先行研究 (研究機関ほか)先行研究 (個人)

設計四つの基盤技術収集構造化利活用保存

進捗

おわりに

謝辞

参考文献

利活用 (2/4)-検索アプリケーション▶ 100億語規模を高速に検索するアプリケーション

▶ Web ベースの検索環境▶ 高速文字列検索▶ 単語分かち書き・品詞情報に基づく絞込み検索▶ 係り受け構造に基づく部分木検索▶ レジスタに基づくファセットナビゲーション

February 28th 2013 17/25

Page 18: 2013 02-28-hcorpus

A Design of WebScale Corpora

Asahara andMaekawa

はじめに

Web コーパスとWeb アーカイブ先行研究 (一般企業)先行研究 (研究機関ほか)先行研究 (個人)

設計四つの基盤技術収集構造化利活用保存

進捗

おわりに

謝辞

参考文献

利活用 (3/4)-語彙表・n-gram 頻度情報▶ 3ヶ月ごとのデータに対して以下の統計情報を整備

▶ 語彙表形態論情報を含む; 出現形に基づく

▶ 文字列上の n-gram 頻度情報形態論情報を含まない; 出現形に基づく

▶ 形態素列上の n-gram 頻度情報形態論情報を含まない; 基本形に基づく

▶ 係り受け構造に基づく部分木頻度情報▶ HTML タグの頻度情報▶ リンク-被リンク関係

February 28th 2013 18/25

Page 19: 2013 02-28-hcorpus

A Design of WebScale Corpora

Asahara andMaekawa

はじめに

Web コーパスとWeb アーカイブ先行研究 (一般企業)先行研究 (研究機関ほか)先行研究 (個人)

設計四つの基盤技術収集構造化利活用保存

進捗

おわりに

謝辞

参考文献

利活用 (4/4)-言語解析技術への利用▶ 得られた統計情報を用いた言語解析技術の性能向上手法の検討

▶ 形態素解析辞書の拡充▶ 言語解析器における共起情報の利用

February 28th 2013 19/25

Page 20: 2013 02-28-hcorpus

A Design of WebScale Corpora

Asahara andMaekawa

はじめに

Web コーパスとWeb アーカイブ先行研究 (一般企業)先行研究 (研究機関ほか)先行研究 (個人)

設計四つの基盤技術収集構造化利活用保存

進捗

おわりに

謝辞

参考文献

保存▶ 言語の経年変化分析のための永続保存のための技術検討

▶ 保存技術の検討▶ ファイル形式▶ 媒体

▶ 時系列組織化▶ 収集時期ベース▶ 作成時期ベース

▶ キュレーション技術のサーベイ

February 28th 2013 20/25

Page 21: 2013 02-28-hcorpus

A Design of WebScale Corpora

Asahara andMaekawa

はじめに

Web コーパスとWeb アーカイブ先行研究 (一般企業)先行研究 (研究機関ほか)先行研究 (個人)

設計四つの基盤技術収集構造化利活用保存

進捗

おわりに

謝辞

参考文献

進捗/予定▶ 2011年度

▶ 計画立案 (3-4Q)

▶ 2012年度▶ 収集に関する既存技術調査 (1Q)▶ クローラの試験運用 (2Q)▶ クローラの本運用 (3Q-)▶ 正規化技術調査 (3Q)▶ 正規化技術試験運用 (4Q)▶ レジスタ分析技術調査 (4Q)

▶ 2013年度の主な予定▶ 正規化技術本運用▶ 形態素技術試験運用▶ レジスタ分析技術開発▶ 検索技術の調達開始▶ 保存のための組織化開始

February 28th 2013 21/25

Page 22: 2013 02-28-hcorpus

A Design of WebScale Corpora

Asahara andMaekawa

はじめに

Web コーパスとWeb アーカイブ先行研究 (一般企業)先行研究 (研究機関ほか)先行研究 (個人)

設計四つの基盤技術収集構造化利活用保存

進捗

おわりに

謝辞

参考文献

おわりに▶ 国語研で構築予定の Web コーパス/アーカイブの概要設計

収集: Web ページの取得Heritrix による Remote Harvesting (定期的なバルク収集)

構造化: (図書館情報学的)組織化+言語解析テキスト処理・言語処理・メタデータ相当情報付与。

利活用: 検索・統計取得・統計利用高速なWeb ベースの検索環境・時系列統計情報の提供。

保存: (アーカイブ学的)組織化+永続保存アーカイブ情報処理。

February 28th 2013 22/25

Page 23: 2013 02-28-hcorpus

A Design of WebScale Corpora

Asahara andMaekawa

はじめに

Web コーパスとWeb アーカイブ先行研究 (一般企業)先行研究 (研究機関ほか)先行研究 (個人)

設計四つの基盤技術収集構造化利活用保存

進捗

おわりに

謝辞

参考文献

謝辞

本研究は国立国語研究所コーパス開発センターの「超大規模コーパス構築プロジェクト」によるものです。本研究を行うにあたり、情報通信研究機構ユニバーサルコミュニケーション研究所の諸氏および統計数理研究所の持橋大地氏よりさまざまな技術指導をいただきました。また国立国語研究所コーパス開発センターの諸氏から設計時点での有益なコメントをいただきました。

February 28th 2013 23/25

Page 24: 2013 02-28-hcorpus

A Design of WebScale Corpora

Asahara andMaekawa

はじめに

Web コーパスとWeb アーカイブ先行研究 (一般企業)先行研究 (研究機関ほか)先行研究 (個人)

設計四つの基盤技術収集構造化利活用保存

進捗

おわりに

謝辞

参考文献

参考文献Shinzato-2008 Shinzato, K., T. Shibata, D. Kawahara, C. Hashimoto, and

S. Kurohashi (2008). “Tsubaki: An open search engineinfrastructure for developing new information access.”IJCNLP-2008.

Asahara-2013b 浅原正幸 (2013).「係り受けアノテーション基準の比較」 第 3回コーパス日本語学ワークショップ.

Asahara-2013 浅原正幸・松本裕治 (2013).「『現代日本語書き言葉均衡コーパス』に対する係り受け・並列構造アノテーション」 第 19 回言語処理学会年次大会 (NLP2013).

河原-2006 河原大輔・黒橋禎夫 (2006).「高性能計算環境を用いたWeb からの大規模格フレーム構築」 情報処理学会自然言語処理研究会 171-12 巻, pp. 67–73.

京都大学-2008 京都大学大学院情報学研究科黒橋研究室 (2008).『京都大学格フレーム (Ver 1.0)』.

工藤-2007 工藤拓・賀沢秀人 (2007).『Web 日本語 N グラム第1版』, 言語資源協会発行.

国立国会図書館 国立国会図書館『インターネット資料収集保存事業(ウェブサイト別)』.

情報通信研究機構-2011 情報通信研究機構 (2011).『日本語係り受けデータベース Version 1.1』.

関根-2010 関根麻緒 (2010).「国立国会図書館のインターネット情報の制度的収集」 図書館雑誌, 104:5, pp. 288.

February 28th 2013 24/25

Page 25: 2013 02-28-hcorpus

A Design of WebScale Corpora

Asahara andMaekawa

はじめに

Web コーパスとWeb アーカイブ先行研究 (一般企業)先行研究 (研究機関ほか)先行研究 (個人)

設計四つの基盤技術収集構造化利活用保存

進捗

おわりに

謝辞

参考文献

参考文献

Baidu-2010a バイドゥ株式会社 (2010a).『Baidu ブログ・掲示板時間軸コーパス』.

Baidu-2010b バイドゥ株式会社 (2010b).『Baidu 絵文字入りモバイルウェブコーパス』.

前川-2007 前川喜久雄 (2007).「コーパス日本語学の可能性—大規模均衡コーパスがもたらすもの—」 日本語科学, 22, pp. 13–28.

前川-2008 前川喜久雄・山崎誠 (2008).「『現代日本語書き言葉均衡コーパス』」 国文学解釈と鑑賞, 932(74 巻 1 号), pp. 15–25.

持橋-2005 持橋大地・菊井玄一郎・北研二 (2005).「言語表現のベクトル空間モデルにおける最適な計量距離」 電子情報通信学会論文誌,J88-D-II:4, pp. 747–756.

Mochihashi-2009 持橋大地・山田武士・上田修功 (2009).「ベイズ階層言語モデルによる教師なし形態素解析」 情報処理学会研究報告:2009-NL-190.

Yata-2010 矢田晋 (2010).『日本語ウェブコーパス 2010 (NWC 2010)』.ヤフー-2007 ヤフー株式会社 (2007).『Yahoo! 知恵袋データ (第 1 版)』.ヤフー-2011 ヤフー株式会社 (2011).『Yahoo! 知恵袋データ (第 2 版)』.楽天-2010 楽天技術研究所 (2010).『楽天データセット』.

February 28th 2013 25/25