24
BCCWJ Japanese Timebank Konishi and Asahara and Maekawa はじめに 概要 研究の目的と動機 アノテーション対象と付与す る情報 本発表の概要 標準化とアノテーショ ン基準 アノテーション基準 (各論) アノテーション作業環 境・作業対象 作業環境 作業対象 アノテーションの分析 おわりに 謝辞 参考文献 『現代日本語書き言葉均衡コーパス』に対する 時間情報表現アノテーション 小西 光 浅原 正幸 前川 喜久雄 国立国語研究所 March 13th 2013 March 13th 2013 1/24

2013 03-13-TIMEX

Embed Size (px)

Citation preview

Page 1: 2013 03-13-TIMEX

BCCWJ JapaneseTimebank

Konishi and Asaharaand Maekawa

はじめに概要研究の目的と動機アノテーション対象と付与する情報本発表の概要

標準化とアノテーション基準

アノテーション基準(各論)

アノテーション作業環境・作業対象作業環境作業対象

アノテーションの分析

おわりに

謝辞

参考文献

『現代日本語書き言葉均衡コーパス』に対する時間情報表現アノテーション

小西 光 浅原 正幸 前川 喜久雄

国立国語研究所

March 13th 2013

March 13th 2013 1/24

Page 2: 2013 03-13-TIMEX

BCCWJ JapaneseTimebank

Konishi and Asaharaand Maekawa

はじめに概要研究の目的と動機アノテーション対象と付与する情報本発表の概要

標準化とアノテーション基準

アノテーション基準(各論)

アノテーション作業環境・作業対象作業環境作業対象

アノテーションの分析

おわりに

謝辞

参考文献

はじめに例1: ⟨TIMEX3⟩ タグに基づく日本語時間情報アノテーション (出典) PB59 00001� �

⟨sentence type=”quasi”⟩⟨TIMEX3 @tid=”t1” @type=”DATE” value=”2003-10-20” @valueFromSurface=”2003-

10-20” @definite=”true”⟩ 二〇〇三年十月二十日 ⟨/TIMEX3⟩   ⟨TIMEX3 @tid=”t2” @type=”DATE”

@value=”2003-10-W3-1” @valueFromSurface=”XXXX-WXX-1” @definite=”true”⟩ 月曜日 ⟨/TIMEX3⟩⟨/sentence⟩

⟨br @type=”automatic original” /⟩ ⟨sentence @type=”quasi”⟩⟨TIMEX3 @tid=”t3” @type=”TIME”

@value=”2003-10-20T17:30:XX” @valueFromSurface=”XXXX-XX-XXT17:30:XX” @definite=”true”⟩ 午後五時三

十分 ⟨/TIMEX3⟩⟨/sentence⟩ ⟨br @type=”automatic original” /⟩ ⟨blockEnd /⟩ ⟨paragraph⟩ ⟨sentence⟩  ステ

イシーはだらけた姿勢でモニターの前に陣取り、白黒の画像に見入っていた。⟨/sentence⟩ ⟨sentence⟩ 彼女は伸びを

し、腕時計に目をやった。⟨/sentence⟩ ⟨sentence⟩⟨TIMEX3 @tid=”t4” @type=”DURATION” @value=”PT2H30M”

@valueFromSurface=”PT2H30M”⟩ 二時間半 ⟨/TIMEX3⟩ で収穫ゼロ。⟨/sentence⟩� �テキスト中の時間情報表現の正規化情報を『現代日本語書き言葉均衡コーパス』(以下 BCCWJ) に付与

March 13th 2013 2/24

Page 3: 2013 03-13-TIMEX

BCCWJ JapaneseTimebank

Konishi and Asaharaand Maekawa

はじめに概要研究の目的と動機アノテーション対象と付与する情報本発表の概要

標準化とアノテーション基準

アノテーション基準(各論)

アノテーション作業環境・作業対象作業環境作業対象

アノテーションの分析

おわりに

謝辞

参考文献

はじめに – 研究の目的と動機前スライドの例1に含まれる時間情報表現

対象とする時間情報表現二〇〇三年十月二十日 表層文字列をもとに時間軸上に一意に写像可能月曜日 表層文字列のみでは時間軸上に一意に写像不可午後五時三十分 表層文字列のみでは時間軸上に一意に写像不可二時間半 表層文字列のみでは時間軸上に一意に写像不可

研究の目的時間情報表現を文脈を用いて時間軸上に写像する作業

定時間情報表現 (fully-specified temporal expression): 表層文字列をもとに時間軸上に一意に写像可能なもの(例:「二〇〇三年十月二十日」)不定時間情報表現 (under-specified temporal expression): 表層文字列のみでは時間軸上に一意に写像不可なもの(例:「月曜日」「午後五時三十分」「二時間半」)

研究の動機言語処理的な用途:テキストからの情報抽出・文書要約言語学な用途:事象表現の時間軸上の構造の分析

March 13th 2013 3/24

Page 4: 2013 03-13-TIMEX

BCCWJ JapaneseTimebank

Konishi and Asaharaand Maekawa

はじめに概要研究の目的と動機アノテーション対象と付与する情報本発表の概要

標準化とアノテーション基準

アノテーション基準(各論)

アノテーション作業環境・作業対象作業環境作業対象

アノテーションの分析

おわりに

謝辞

参考文献

はじめに – アノテーション対象と付与する情報前スライドの例1に含まれる時間情報表現

対象とする時間情報表現 @type @value @valueFromSurface @definite

二〇〇三年十月二十日 ”DATE” ”2003-10-20” ”2003-10-20” ”true”月曜日 ”DATE” ”2003-10-W3-1” ”XXXX-WXX-1” ”true”午後五時三十分 ”TIME” ”2003-10-20T17:30:XX” ”XXXX-XX-XXT17:30:XX” ”true”二時間半 ”DURATION” ”PT2H30M” ””PT2H30M”

「正規化」の例「月曜日」が、表層からは月曜であるということしかわからない (”XXXX-WXX-1” @valueFromSurface属性)が、2003年10月第三週の月曜日であるという情報を機械可読形式で付与すること (”2003-10-W3-1” @value属性)「午後五時三十分」が、表層からは 17時 30分であるということしかわからない (”XXXX-XX-XXT17:30:XX”@valueFromSurface属性)が、2003年 10月 20日の 17時 30分であるという情報を機械可読形式で付与すること(”2003-10-20T17:30:XX” @value属性)

時間情報表現を分類したり (@type 属性)、正規化可能かどうかの情報を付与したり (@definite 属性)、その他様々な情報を付与

March 13th 2013 4/24

Page 5: 2013 03-13-TIMEX

BCCWJ JapaneseTimebank

Konishi and Asaharaand Maekawa

はじめに概要研究の目的と動機アノテーション対象と付与する情報本発表の概要

標準化とアノテーション基準

アノテーション基準(各論)

アノテーション作業環境・作業対象作業環境作業対象

アノテーションの分析

おわりに

謝辞

参考文献

はじめに – 本発表の概要標準化とアノテーション基準アノテーション基準(各論)アノテーション作業環境アノテーションの分析

March 13th 2013 5/24

Page 6: 2013 03-13-TIMEX

BCCWJ JapaneseTimebank

Konishi and Asaharaand Maekawa

はじめに概要研究の目的と動機アノテーション対象と付与する情報本発表の概要

標準化とアノテーション基準

アノテーション基準(各論)

アノテーション作業環境・作業対象作業環境作業対象

アノテーションの分析

おわりに

謝辞

参考文献

標準化とアノテーション基準アノテーション基準の標準化

国際標準化機構 (ISO)の標準化技術委員会の TC37 が言語資源に関する様々なアノテーション基準を策定している。四つの分科会のうち SC4 が言語資源管理を対象としており、この配下に作業部会が六つ規定している。ISO/TC 37/SC 4/WG 2 が Semantic Annotation

日本ではこの標準化作業が軽視される傾向にあるアノテーション作業に従事しているものが標準化のサーベイを行わない言語現象は独自にアノテーション基準を規定することに意義がある標準化作業に携わっているものが必ずしもアノテーション作業に従事していないアノテーションの現場の声を反映していない基準

March 13th 2013 6/24

Page 7: 2013 03-13-TIMEX

BCCWJ JapaneseTimebank

Konishi and Asaharaand Maekawa

はじめに概要研究の目的と動機アノテーション対象と付与する情報本発表の概要

標準化とアノテーション基準

アノテーション基準(各論)

アノテーション作業環境・作業対象作業環境作業対象

アノテーションの分析

おわりに

謝辞

参考文献

ISO-TimeML

時間表現・事象表現のアノテーション基準国際標準化された基準の一つ: ISO 24617-1 SemAF/TimeISO/TC 37/SC 4/WG 2(TDG3) と TimeML 策定者との共同成果物Community-Driven Standard基本的には TimeML 策定者が先。英語で最初にアノテーション基準が策定され、韓国語などへの言語適応が図られたのち、それが ISO として採用された。時間情報そのものは言語横断的に国際標準化しやすい一方、事象表現は意味論のアノテーションであり言語依存になりやすい

本研究は ISO-TimeML のうち時間情報表現の正規化を規定した ⟨TIMEX3⟩の日本語適応

日本語の事例に対する正規化基準の規定国際標準のローカライゼーション作業BCCWJ に対するレジスタ横断的なアノテーション

March 13th 2013 7/24

Page 8: 2013 03-13-TIMEX

BCCWJ JapaneseTimebank

Konishi and Asaharaand Maekawa

はじめに概要研究の目的と動機アノテーション対象と付与する情報本発表の概要

標準化とアノテーション基準

アノテーション基準(各論)

アノテーション作業環境・作業対象作業環境作業対象

アノテーションの分析

おわりに

謝辞

参考文献

⟨TIMEX3⟩タグ対象時間情報表現(日付表現・時間表現・時刻表現・頻度集合表現)表現形式XML ファイル上の ⟨TIMEX3⟩タグによる範囲指定(入れ子は行わない)属性

@tid: 一文書中の時間情報表現を一意に同定するための識別子@type: 時間情報表現の分類(“DATE”, “TIME”, “DURATION”, “SET” の四種)@value: 文脈に基づく時間情報の正規化情報@valueFromSurface: 表層に基づく時間情報の正規化情報@freq, @quant: 頻度集合表現に付与される量化子情報@mod: 時間を自然言語で表現するうえで付与されるモダリティ情報@definite: 文脈情報により定時間情報が得られるか否か

基準の詳細は、小西、浅原、前川 (2012)「『現代日本語書き言葉均衡コーパス』に対する時間情報表現アノテーション」第 2 回コーパス日本語学ワークショップ予稿集 p.25-p.34 を参照。

次ページに下線の部分について詳述。

March 13th 2013 8/24

Page 9: 2013 03-13-TIMEX

BCCWJ JapaneseTimebank

Konishi and Asaharaand Maekawa

はじめに概要研究の目的と動機アノテーション対象と付与する情報本発表の概要

標準化とアノテーション基準

アノテーション基準(各論)

アノテーション作業環境・作業対象作業環境作業対象

アノテーションの分析

おわりに

謝辞

参考文献

例1: ⟨TIMEX3⟩ タグに基づく日本語時間情報アノテーション (部分再掲)� �⟨TIMEX3 @tid=”t1” @type=”DATE” @value=”2003-10-20” @valueFromSurface=”2003-10-20” @definite=”true”⟩

二〇〇三年十月二十日 ⟨/TIMEX3⟩   ⟨TIMEX3 @tid=”t2” @type=”DATE” @value=”2003-10-W3-1”

@valueFromSurface=”XXXX-WXX-1” @definite=”true”⟩ 月曜日 ⟨/TIMEX3⟩� �「二〇〇三年十月二十日」は表層から定時間情報復元可能なため @definite が“true” 。@value と @valueFromSurface が一致。「月曜日」は文脈から定時間情報復元可能なため @definite が “true” 。@value と@valueFromSurface が一致。

対象とする時間情報表現 @type @value @valueFromSurface @definite

二〇〇三年十月二十日 ”DATE” ”2003-10-20” ”2003-10-20” ”true”月曜日 ”DATE” ”2003-10-W3-1” ”XXXX-WXX-1” ”true”

例2: @value と @valueFromSurface が異なるが定時間情報が復元できない例� �⟨TIMEX3 @type="DATE" @value="XXXX-04" @valueFromSurface="XXXX-04" @definite="false"⟩ 4 月⟨/TIMEX3⟩ の予定ですが ⟨TIMEX3 @type="DATE" @value="XXXX-04-10" @valueFromSurface="XXXX-XX-10"

@definite="false"⟩ 10日 ⟨/TIMEX3⟩ は...� �対象とする時間情報表現 @type @value @valueFromSurface @definite

4月 ”DATE” ”XXXX-04” ”XXXX-04” ”false”10日 ”DATE” ”XXXX-04-10” ”XXXX-XX-10” ”false”

「4月」は表層からも文脈からも定時間情報復元不可なため @definite が “false” 。@value と @valueFromSurface が一致。「10日」は表層から定時間情報復元不可。文脈からは「4月」であることは復元可能だが、定時間情報復元不可 なため @definite が “false” 。@value と@valueFromSurface が一致しない。

March 13th 2013 9/24

Page 10: 2013 03-13-TIMEX

BCCWJ JapaneseTimebank

Konishi and Asaharaand Maekawa

はじめに概要研究の目的と動機アノテーション対象と付与する情報本発表の概要

標準化とアノテーション基準

アノテーション基準(各論)

アノテーション作業環境・作業対象作業環境作業対象

アノテーションの分析

おわりに

謝辞

参考文献

例1: ⟨TIMEX3⟩ タグに基づく日本語時間情報アノテーション (部分再掲)� �⟨TIMEX3 @tid=”t1” @type=”DATE” @value=”2003-10-20” @valueFromSurface=”2003-10-20” @definite=”true”⟩

二〇〇三年十月二十日 ⟨/TIMEX3⟩   ⟨TIMEX3 @tid=”t2” @type=”DATE” @value=”2003-10-W3-1”

@valueFromSurface=”XXXX-WXX-1” @definite=”true”⟩ 月曜日 ⟨/TIMEX3⟩� �「二〇〇三年十月二十日」は表層から定時間情報復元可能なため @definite が“true” 。@value と @valueFromSurface が一致。「月曜日」は文脈から定時間情報復元可能なため @definite が “true” 。@value と@valueFromSurface が一致。

対象とする時間情報表現 @type @value @valueFromSurface @definite

二〇〇三年十月二十日 ”DATE” ”2003-10-20” ”2003-10-20” ”true”月曜日 ”DATE” ”2003-10-W3-1” ”XXXX-WXX-1” ”true”

例2: @value と @valueFromSurface が異なるが定時間情報が復元できない例� �⟨TIMEX3 @type="DATE" @value="XXXX-04" @valueFromSurface="XXXX-04" @definite="false"⟩ 4 月⟨/TIMEX3⟩ の予定ですが ⟨TIMEX3 @type="DATE" @value="XXXX-04-10" @valueFromSurface="XXXX-XX-10"

@definite="false"⟩ 10日 ⟨/TIMEX3⟩ は...� �対象とする時間情報表現 @type @value @valueFromSurface @definite

4月 ”DATE” ”XXXX-04” ”XXXX-04” ”false”10日 ”DATE” ”XXXX-04-10” ”XXXX-XX-10” ”false”

「4月」は表層からも文脈からも定時間情報復元不可なため @definite が “false” 。@value と @valueFromSurface が一致。「10日」は表層から定時間情報復元不可。文脈からは「4月」であることは復元可能だが、定時間情報復元不可 なため @definite が “false” 。@value と@valueFromSurface が一致しない。

March 13th 2013 10/24

Page 11: 2013 03-13-TIMEX

BCCWJ JapaneseTimebank

Konishi and Asaharaand Maekawa

はじめに概要研究の目的と動機アノテーション対象と付与する情報本発表の概要

標準化とアノテーション基準

アノテーション基準(各論)

アノテーション作業環境・作業対象作業環境作業対象

アノテーションの分析

おわりに

謝辞

参考文献

XML Editor oXygen によるアノテーション

XML の直接編集DTD, XML Schema などを用いて制約づけ多様なショートカットの利用

March 13th 2013 11/24

Page 12: 2013 03-13-TIMEX

BCCWJ JapaneseTimebank

Konishi and Asaharaand Maekawa

はじめに概要研究の目的と動機アノテーション対象と付与する情報本発表の概要

標準化とアノテーション基準

アノテーション基準(各論)

アノテーション作業環境・作業対象作業環境作業対象

アノテーションの分析

おわりに

謝辞

参考文献

ペアプログラミングによる統制

一台の PCに二つのディスプレイ(ミラーリング)キーボード・マウスを二対接続し議論しながら基準を統制アノテーション基準の策定・教示時には有効

March 13th 2013 12/24

Page 13: 2013 03-13-TIMEX

BCCWJ JapaneseTimebank

Konishi and Asaharaand Maekawa

はじめに概要研究の目的と動機アノテーション対象と付与する情報本発表の概要

標準化とアノテーション基準

アノテーション基準(各論)

アノテーション作業環境・作業対象作業環境作業対象

アノテーションの分析

おわりに

謝辞

参考文献

アノテーション作業対象BCCWJ のアノテーションを行う優先順序⇒ http://goo.gl/rLukS

BCCWJ コアデータ各レジスタの最小集合 (A集合)

時間情報が多く含まれる新聞のみ B 集合まで

レジスタ ファイル数 うち時間表現あり 文数 うち時間表現あり 短単位形態素数白書 OW (A) 17 16 (94%) 1439 405 (28%) 58336書籍 PB (A) 25 25 (100%) 2568 289 (11%) 57929新聞 PN (A,B) 110 110 (100%) 5582 1562 (28%) 116834知恵袋 OC (A) 518 250 (48%) 3479 488 (14%) 60086雑誌 PM (A) 23 23 (100%) 3066 413 (13%) 59372ブログ OY (A) 257 198 (77%) 3986 765 (19%) 63459

March 13th 2013 13/24

Page 14: 2013 03-13-TIMEX

BCCWJ JapaneseTimebank

Konishi and Asaharaand Maekawa

はじめに概要研究の目的と動機アノテーション対象と付与する情報本発表の概要

標準化とアノテーション基準

アノテーション基準(各論)

アノテーション作業環境・作業対象作業環境作業対象

アノテーションの分析

おわりに

謝辞

参考文献

アノテーションの分析

@definite true (特定可) false (特定不可)

@valueFromSurface と@value の関係 all = ̸= all = ̸=@type=DATE 2214(61%) 381(10%) 1833(50%) 1438(39%) 1275(35%) 163(4%)@type=TIME 188(37%) 1(0%) 187(37%) 315(63%) 239(48%) 76(15%)@type=DURATION 1129(92%) 1128(92%) 1(0%) 99(8%) 99(8%) 0@type=SET 131(85%) 129(84%) 2(1%) 23(15%) 22(14%) 1(1%)

ALL 3662(66%) 1639(30%) 2023(37%) 1875(34%) 1635(30%) 240(4%)

複数の視点での分析@definiteが “true” か “false” か定時間表現(時間軸上の範囲を特定可能)か不定時間表現(時間軸上の範囲を特定不可)か@valueFromSurfaceと @valueが等しいか否か文脈を用いて時間正規化情報の補完が行われているか否か

March 13th 2013 14/24

Page 15: 2013 03-13-TIMEX

BCCWJ JapaneseTimebank

Konishi and Asaharaand Maekawa

はじめに概要研究の目的と動機アノテーション対象と付与する情報本発表の概要

標準化とアノテーション基準

アノテーション基準(各論)

アノテーション作業環境・作業対象作業環境作業対象

アノテーションの分析

おわりに

謝辞

参考文献

アノテーションの分析

@definite true (特定可) false (特定不可)

@valueFromSurface と@value の関係 all = ̸= all = ̸=@type=DATE 2214(61%) 381(10%) 1833(50%) 1438(39%) 1275(35%) 163(4%)@type=TIME 188(37%) 1(0%) 187(37%) 315(63%) 239(48%) 76(15%)@type=DURATION 1129(92%) 1128(92%) 1(0%) 99(8%) 99(8%) 0@type=SET 131(85%) 129(84%) 2(1%) 23(15%) 22(14%) 1(1%)

ALL 3662(66%) 1639(30%) 2023(37%) 1875(34%) 1635(30%) 240(4%)

表現全体 (@type全て)

正規化作業が不要なものが 1639 件 (30%)残りのうち 2023 件 (37%) が時間軸上の範囲を特定可能

日付表現 @type= DATE

@valueFromSurface ̸= @valueなものが多い和暦・西暦の換算が白書などに多くみられる

時刻表現 @type= TIME

時間軸上の範囲を特定可能にするためには、省略されている日付情報の補完が必ず必要

時間表現 @type= DURATION, 頻度集合表現 @type= SET

もともと時区間を想定しない表現のため、時間幅が一意に確定できる場合には@definite= “true” としている。

March 13th 2013 15/24

Page 16: 2013 03-13-TIMEX

BCCWJ JapaneseTimebank

Konishi and Asaharaand Maekawa

はじめに概要研究の目的と動機アノテーション対象と付与する情報本発表の概要

標準化とアノテーション基準

アノテーション基準(各論)

アノテーション作業環境・作業対象作業環境作業対象

アノテーションの分析

おわりに

謝辞

参考文献

アノテーションの分析

@definite true (特定可) false (特定不可)

@valueFromSurface と@value の関係 all = ̸= all = ̸=@type=DATE 2214(61%) 381(10%) 1833(50%) 1438(39%) 1275(35%) 163(4%)@type=TIME 188(37%) 1(0%) 187(37%) 315(63%) 239(48%) 76(15%)@type=DURATION 1129(92%) 1128(92%) 1(0%) 99(8%) 99(8%) 0@type=SET 131(85%) 129(84%) 2(1%) 23(15%) 22(14%) 1(1%)

ALL 3662(66%) 1639(30%) 2023(37%) 1875(34%) 1635(30%) 240(4%)

表現全体 (@type全て)

正規化作業が不要なものが 1639 件 (30%)残りのうち 2023 件 (37%) が時間軸上の範囲を特定可能

日付表現 @type= DATE

@valueFromSurface ̸= @valueなものが多い和暦・西暦の換算が白書などに多くみられる

時刻表現 @type= TIME

時間軸上の範囲を特定可能にするためには、省略されている日付情報の補完が必ず必要

時間表現 @type= DURATION, 頻度集合表現 @type= SET

もともと時区間を想定しない表現のため、時間幅が一意に確定できる場合には@definite= “true” としている。

March 13th 2013 16/24

Page 17: 2013 03-13-TIMEX

BCCWJ JapaneseTimebank

Konishi and Asaharaand Maekawa

はじめに概要研究の目的と動機アノテーション対象と付与する情報本発表の概要

標準化とアノテーション基準

アノテーション基準(各論)

アノテーション作業環境・作業対象作業環境作業対象

アノテーションの分析

おわりに

謝辞

参考文献

アノテーションの分析

@definite true (特定可) false (特定不可)

@valueFromSurface と@value の関係 all = ̸= all = ̸=@type=DATE 2214(61%) 381(10%) 1833(50%) 1438(39%) 1275(35%) 163(4%)@type=TIME 188(37%) 1(0%) 187(37%) 315(63%) 239(48%) 76(15%)@type=DURATION 1129(92%) 1128(92%) 1(0%) 99(8%) 99(8%) 0@type=SET 131(85%) 129(84%) 2(1%) 23(15%) 22(14%) 1(1%)

ALL 3662(66%) 1639(30%) 2023(37%) 1875(34%) 1635(30%) 240(4%)

表現全体 (@type全て)

正規化作業が不要なものが 1639 件 (30%)残りのうち 2023 件 (37%) が時間軸上の範囲を特定可能

日付表現 @type= DATE

@valueFromSurface ̸= @valueなものが多い和暦・西暦の換算が白書などに多くみられる

時刻表現 @type= TIME

時間軸上の範囲を特定可能にするためには、省略されている日付情報の補完が必ず必要

時間表現 @type= DURATION, 頻度集合表現 @type= SET

もともと時区間を想定しない表現のため、時間幅が一意に確定できる場合には@definite= “true” としている。

March 13th 2013 17/24

Page 18: 2013 03-13-TIMEX

BCCWJ JapaneseTimebank

Konishi and Asaharaand Maekawa

はじめに概要研究の目的と動機アノテーション対象と付与する情報本発表の概要

標準化とアノテーション基準

アノテーション基準(各論)

アノテーション作業環境・作業対象作業環境作業対象

アノテーションの分析

おわりに

謝辞

参考文献

アノテーションの分析

@definite true (特定可) false (特定不可)

@valueFromSurface と@value の関係 all = ̸= all = ̸=@type=DATE 2214(61%) 381(10%) 1833(50%) 1438(39%) 1275(35%) 163(4%)@type=TIME 188(37%) 1(0%) 187(37%) 315(63%) 239(48%) 76(15%)@type=DURATION 1129(92%) 1128(92%) 1(0%) 99(8%) 99(8%) 0@type=SET 131(85%) 129(84%) 2(1%) 23(15%) 22(14%) 1(1%)

ALL 3662(66%) 1639(30%) 2023(37%) 1875(34%) 1635(30%) 240(4%)

表現全体 (@type全て)

正規化作業が不要なものが 1639 件 (30%)残りのうち 2023 件 (37%) が時間軸上の範囲を特定可能

日付表現 @type= DATE

@valueFromSurface ̸= @valueなものが多い和暦・西暦の換算が白書などに多くみられる

時刻表現 @type= TIME

時間軸上の範囲を特定可能にするためには、省略されている日付情報の補完が必ず必要

時間表現 @type= DURATION, 頻度集合表現 @type= SET

もともと時区間を想定しない表現のため、時間幅が一意に確定できる場合には@definite= “true” としている。

March 13th 2013 18/24

Page 19: 2013 03-13-TIMEX

BCCWJ JapaneseTimebank

Konishi and Asaharaand Maekawa

はじめに概要研究の目的と動機アノテーション対象と付与する情報本発表の概要

標準化とアノテーション基準

アノテーション基準(各論)

アノテーション作業環境・作業対象作業環境作業対象

アノテーションの分析

おわりに

謝辞

参考文献

おわりにBCCWJに対する時間情報表現の正規化作業

基準: 標準化と日本語ローカライゼーション作業環境: XML Editor の利用

ペアプログラミング的な手法分析: 正規化作業の必要性

文脈を利用しても正規化できない時間情報表現の存在

March 13th 2013 19/24

Page 20: 2013 03-13-TIMEX

BCCWJ JapaneseTimebank

Konishi and Asaharaand Maekawa

はじめに概要研究の目的と動機アノテーション対象と付与する情報本発表の概要

標準化とアノテーション基準

アノテーション基準(各論)

アノテーション作業環境・作業対象作業環境作業対象

アノテーションの分析

おわりに

謝辞

参考文献

今後時間情報表現と事象情報表現の関係づけ

時間情報表現と関係づける事象表現の切り出しと分類Allen の範囲代数相当の情報付与

保田、小西、浅原、今田、前川 (2013)「『現代日本語書き言葉均衡コーパス』に対する時間情

報・事象表現間時間的順序関係アノテーション」第 3 回コーパス日本語学ワークショップ予稿

集 p.373-p.382 を参照。

March 13th 2013 20/24

Page 21: 2013 03-13-TIMEX

BCCWJ JapaneseTimebank

Konishi and Asaharaand Maekawa

はじめに概要研究の目的と動機アノテーション対象と付与する情報本発表の概要

標準化とアノテーション基準

アノテーション基準(各論)

アノテーション作業環境・作業対象作業環境作業対象

アノテーションの分析

おわりに

謝辞

参考文献

謝辞

本研究は国立国語研究所共同研究プロジェクト「コーパスアノテーションの基礎研究」および国立国語研究所コーパス開発センター「超大規模コーパス構築プロジェクト」によるものです。また国立国語研究所コーパス開発センターの諸氏から有益なコメントをいただきました。

March 13th 2013 21/24

Page 22: 2013 03-13-TIMEX

BCCWJ JapaneseTimebank

Konishi and Asaharaand Maekawa

はじめに概要研究の目的と動機アノテーション対象と付与する情報本発表の概要

標準化とアノテーション基準

アノテーション基準(各論)

アノテーション作業環境・作業対象作業環境作業対象

アノテーションの分析

おわりに

謝辞

参考文献

参考文献 (1/3)

A. Setzer 2001. Temporal Information in Newswire Articles: An AnnotationScheme and Corpus Study. Ph.D. thesis, University of Sheffield.

B. Boguraev and R. Kubota Ando 2005. “TimeML-Compliant Text Analysis forTemporal Reasoning” In Proceedings of the 19th International Joint Conference onArtificial Intelligence (IJCAI-05), pp. 997–1003.

B. Boguraev and R. Kubota Ando 2006. “Analysis of TimeBank as a Resource forTimeML parsing” In Proceedings of the 5th International Conference on LanguageResources and Evaluation (LREC-06).

DARPA TIDES 2004. The TERN evaluation plan; time expression recognition andnormalization. Working papers, TERN Evaluation Workshop.

I. Mani 2006. “Machine Learning of Temporal Relations” In Proceedings of the44th Annual Meeting of the Association for Computational Linguistics (ACL-2006),pp. 753–760.

Im, S., You, H., Jang, H., Nam, S., and Shin, H. 2009. “KTimeML: specificationof temporal and event expressions in Korean text” In Proc. of ALR7 Proceedingsof the 7th Workshop on Asian Language Resources, pp. 115–122.

March 13th 2013 22/24

Page 23: 2013 03-13-TIMEX

BCCWJ JapaneseTimebank

Konishi and Asaharaand Maekawa

はじめに概要研究の目的と動機アノテーション対象と付与する情報本発表の概要

標準化とアノテーション基準

アノテーション基準(各論)

アノテーション作業環境・作業対象作業環境作業対象

アノテーションの分析

おわりに

謝辞

参考文献

参考文献 (2/3)

IREX 実行委員会 1999. 「IREX ワークショップ予稿集」.

J. Pustejovsky et al. 2003a. “The TIMEBANK Corpus” In Proceedings of CorpusLinguistics 2003, pp. 647–656.

J. Pustejovsky et al. 2003b. “TimeML: Robust Specification of Event andTemporal Expressions in Text” In Proceedings of the 5th International Workshopon Computational Semantics (IWCS-5).

M. Verhagen et al. 2007. “SemEval-2007 Task 15: TempEval Temporal RelationIdentification” In Proceedings of the 4th International Workshop on SemanticEvaluations (SemEval-2007), pp. 75–80.

M. Verhagen et al. 2010. “SemEval-2010 Task 13: TempEval-2” In Proceedings ofthe 5th International Workshop on Semantic Evaluations (SemEval-2010),pp. 57–62.

R. Grishman and B. Sundheim 1996. “Message Understanding Conference-6: abrief history” In Proceedings of the 16th International Conference onComputational Linguistics (COLING-96), pp. 466–471.

March 13th 2013 23/24

Page 24: 2013 03-13-TIMEX

BCCWJ JapaneseTimebank

Konishi and Asaharaand Maekawa

はじめに概要研究の目的と動機アノテーション対象と付与する情報本発表の概要

標準化とアノテーション基準

アノテーション基準(各論)

アノテーション作業環境・作業対象作業環境作業対象

アノテーションの分析

おわりに

謝辞

参考文献

参考文献 (3/3)

S. Sekine et al. 2002. “Extended Named Entity Hierarchy” In The ThirdInternational Conference on Language Resources Evaluation (LREC-02).

中村ちどり 2001. 「日本語の時間表現」. くろしお出版.

国立国語研究所コーパス開発センター 2011. 『現代日本語書き言葉均衡コーパス』利用の手引き (第 1.0 版).

橋本 泰一、 中村 俊一 2010. 『拡張固有表現タグ付きコーパスの構築―白書,書籍,Yahoo! 知恵袋コアデータ―』「言語処理学会第 16 回年次大会発表論文集」,pp. 916–919.

工藤 真由美 1995. 「アスペクト・テンス体系とテクスト - 現代日本語の時間の表現-」. ひつじ書房.

工藤 真由美 2004. 「日本語のアスペクト・テンス・ムード体系 標準語研究を超えて」. ひつじ書房.

March 13th 2013 24/24