Upload
others
View
1
Download
0
Embed Size (px)
Citation preview
日本語処理技術と翻訳などの応用の課題と展望
―-日本語の論理性と言語処理について---
情報通信技術研究会2014年4月9日
慶應義塾大学
名誉教授 石崎 俊
1
概要
自己紹介
1 日本語の分析・理解のための言語処理技術
2 機械翻訳などの応用における課題と展望
3 産業日本語などの関連プロジェクト
4 日本語の論理性と言語処理
2
自己紹介• 昭和22年生。昭和45年東京大学工学部計数工学科卒、同学部
助手を経て、
• 昭和47年通商産業省工業技術院電子技術総合研究所入所
(現在、(独)産業技術総合研究所)、同所推論システム研究室
長、自然言語研究室長、米国イェール大学客員フェローなど
を経て、
• 平成4年慶應義塾大学環境情報学部教授、平成6年同政策・メディア研究科委員、
• 平成25年3月同退職、名誉教授 現在に至る。
• 日本認知科学会会長、言語処理学会会長、
• PACLING President(太平洋地域自然言語処理学会会長)• ISO/IEC JTC1(IT国際標準)情報規格調査会会長
• 電子情報通信学会思考と言語研究会委員長 などを歴任。3
自己紹介 2
大学関係
慶應義塾大学名誉教授
(一財)慶應義塾大学SFCフォーラム理事
慶應義塾大学環境情報学部非常勤講師
学会関係
情報処理学会フェロー、 電子情報通信学会フェロー
思考と言語研究会顧問、 言語処理学会顧問、
アジア太平洋機械翻訳協会(AAMT)理事
NPOセマンテックコンピューティング研究開発機構理事
標準化関係
ISO/TC37委員長 用語、翻訳、言語資源の国際標準化
情報通信審議会ITU部会専門委員、総務省
情報規格調査会顧問、IT全般の国際標準化 4
1 日本語の分析・理解のための言語処理技術
1.1 言語処理における「理解」の深さ
1.2 日本語の形態素解析
1.3 統語解析(構文解析)
1.4 意味解析
1.5 文脈解析・理解
1.6 課題と展望
5
1.1 言語処理における「理解」の深さ
1 形態素解析によって語を品詞ごとに把握する
2 統語解析に文の文法的な構造を把握する
3 意味解析によって語の意味を理解する
4 文の意味をひとまとまりの意味として理解する
5 文脈解析によって、いくつかの文(文章)の全体の
意味内容を理解する
6 比喩や発話行為のような言外の意味を理解する
6
1.2 形態素解析
• 語尾変化を伴う用言(動詞 形容詞 形容動詞)は、語尾変化の規則を使って基本形を抽出し、辞書を使って品詞列に変換
• 動詞は時制の変化と音便変化がある
活用形をすべて辞書に載せるのは非効率
• カナ漢字変換では曖昧性が多い
か れ が く る ま で ま つ
彼が来るまで待つ 彼が車で待つ
7
共起情報の使用
• 動詞と名詞が一つの文に同時に現われる(共起する)ときの意味的な制限
意味マーカー <人間> <場所>
<人間>が<人間>にいった ⇒ 言った
<人間>が<場所>にいった ⇒ 行った
<?>で<場所>に行った ⇒
<?> = <乗り物>
• 太郎は東京へ行った。 太郎は花子に行った?• 花が美しい 鼻をかむ
• 面白い 尾・も・白い8
良く使われる曖昧な例
• きしゃ の きしゃ が きしゃ で きしゃ した。
記者 汽車 貴社 帰社
<人間> <乗り物> <組織> <動作>
⇒ 貴社の記者が汽車で帰社した
その他のきしゃ 喜捨 騎射
• 記者がそばを食べた
• 汽車を降りる ⇒ 汽車が二日酔いだ?
• 機械が故障した ⇒ 思い機械?• 新宿は謎の郵便局 実は 新宿花園郵便局
9
形態素解析システムの種類
MeCab ChaSen JUMANコスト推定 コーパスで学習 コーパスで学習 人手で付与
学習モデル CRF HMM 学習無し
開発 京大とNTT研 NAIST 京大
最新版 0.996 2.4.2 5.1 (6.0β)
• Windows用の実行ファイルも用意されている• 使い方はMeCabのページ(http://mecab.sourceforge.net/)
を参照
• 形態素解析の精度は一般に、書き言葉なら98%程度と言われている
• CRF:Conditional Random Field 条件付き確率場理論 10
1.3 統語解析
• 形態素解析では辞書が重要な役割を果したが、構文解析では文法が主役になる.たとえばつぎの英文は、
He saw that gasoline can explode.
2通りの解釈が可能(1)ガソリンが爆発すること
(2)あのガソリンの缶
11
文
名詞句 動詞句
補文
文
名詞句 動詞句
代名詞 動詞 接続詞 名詞 助動詞 動詞
He saw that gasoline can explode.12
構文解析システムの種類(日本語用)
• KNP– http://nlp.kuee.kyoto-u.ac.jp/nl-resource/knp.html
• CaboCha– http://chasen.org/~taku/software/cabocha/
KNP CaboCha
形態素解析器 Juman Mecab
学習手法 ルールベース コーパスベース
開発 京大 NAIST
最新版 2.0 0.53
13
14
構文解析システムの話題
• KNPは形態素解析システムJumanに、CaboChaはMecabに依存しているので単純な比較は難しい
– CaboChaは現在、最も精度が高い(89.29%)– KNPは並列句の解析に優れる
• 解釈に曖昧性があって解析候補が多い場合などでは難しい場合がある。
例)太郎と焼肉を食べた。(並列句の解析)
太郎と<P>─┐ 正しくは 太郎と⇒食べた
焼肉を<P>─PARA──┐
食べた。
15
二通りの構文解析木
名詞句 名詞句
連体句 名詞句
名詞句 連体句
形容詞 名詞 助詞 名詞 形容詞 名詞 助詞 名詞
白い 家 の 屋根 白い 家 の 屋根
16
三重の入れ子構造の場合
美しい 水車小屋の 娘の 帽子
• ( ( ( 美しい 水車小屋 ) の 娘 ) の 帽子)• ( ( 美しい ( 水車小屋 の 娘 ) ) の 帽子)• ( 美しい ( ( 水車小屋の 娘 ) の 帽子) ) )• ( ( 美しい 水車小屋) の ( 娘の帽子) )
• 主辞 head 名詞句の中の最後の名詞
形容詞は次の名詞句の主辞にかかる
• 正しい係り受けは意味解析に依存する
17
係り受けの曖昧性
• 2重の係り受け構造 前から後に係る曖昧性
「美しい水車小屋の娘」、 「白い家の屋根」、「難しい本の解説」
3重の係り受け構造「赤い服の娘の母親」、 「すごい地震の被害の状況」
• 2重の係り受け構造 後ろから前に係る曖昧性
John saw Mary with a telescope3重の係り受け構造
John saw Mary with a telescope in a park.・日本語では名詞や動詞への修飾語句は原則として前に来る。
しかし、英語では前置詞句や関係節は後に来る構造。ただし、
形容詞は名詞の前に来るので係り受けは明確な構造 18
1.4 意味解析• 動詞を中心に文の意味を構成する• 格助詞を用いて、主格(が格)、目的格(を格)などの表層
的な動詞との関係を記述する場合と、• 意味的な役割を表す深層格を用いる場合がある。
• 統語解析で曖昧性がある場合に、意味的な情報を用いて解決
• 単語レベルの意味の処理Stay away from the bank. “bank”の意味に「銀行」と「川の堤」 という2通りの意味がある
19
(1) 日本語表層格
• 日本語の表層格は以下のものをとる
ガ格、ヲ格、ニ格、カラ格、ヘ格、ト格、ヨリ格、
マデ格、デ格
• 太郎ガ東京カラ京都ヘ新幹線デ 行った。
• 太郎ト花子ガ飛行機ヨリ船旅ヲ 選んだ。
• 英語の場合は動詞との位置関係で表層格が決まる場合が多い
20
表層格を用いる格解析
「彼がパンを焼く」、「先生が生徒に手を焼く」
• 用例を用いる方法
格フレーム1 {私、人、・・・}ガ格 {パン、ケーキ、・・・}ヲ格 焼く
格フレーム2 {先生、政府、・・・}ガ格 {行動、攻撃、・・・}二格
{手}ヲ格 焼く
• 意味マーカを用いる方法
格フレーム1’ {主体}ガ格 {食物}ヲ格 焼く
格フレーム2’ {主体}ガ格 {行為}二格 {手}ヲ格 焼く
• 日本語格フレームとしては、IPA日本語基本動詞辞書、NTT日本語語彙大系や
• 京大がWebから構築した大規模格フレームなどがある。
• 80%から90%の精度。 文献10 河原大輔、格解析 pp.188-19021
格文法と深層格
• 格文法は、動詞(さらには形容詞・名詞)とその深層格(動作主・場所・道具のような意味役割)との組み合わせから成るものとして文を分析しようとする理論
• 全ての言語に共通した、文意を表現する格で以下の8種がある。
動作主格(Agent)、経験者格(Experiencer)、道具格(Instrument)、対象格(Object)、源泉格(Source)、目標格(Goal)、場所格(Location)、時間格(Time)
22
表層格と深層格の比較
花子 が ドア を 鍵 で 開けた。
表層格 主格 目的格 修飾句
ガ格 ヲ格 デ格
深層格 動作主格 対象格 道具格
agent object instrument
The key opened the door.表層格 主格 目的格
深層格 道具格 対象格
23
深層格による意味解析• 格解析の中で、深層格を使う方法 意味役割付与
• FrameNet Project の例
“Sally fried an egg in a teflon pan.”動詞FryはApply heatという意味構造を持つ。火を使う主体Cook, 火が使われる対象Food, 火を直接対象に伝える道具Heating Instrument
• 動作主格 Sally 対象格 an egg 道具格 a Teflon pan
• 意味解析の精度は80%に届く程度で課題が多い構文情報を用いてから意味解析を行う場合は、統語解析の誤りの影響が大きい学習コーパスと傾向が異なるデータでは精度が大幅に落ちる 文献10 風間淳一、意味役割付与、 pp.190-1
24
(3) 論理式への変換
• まず統語解析を行い、使用した文法規則における要素ごとの意味を用いて、それらを組み合わせて構成した意味を計算する。この操作をボトムアップに適用して、文全体の意味を論理として計算する。
(構成性の原理)
“A man meets Taro.” の論理式への変換
文法 S→NP VP、 NP→Det N、 VP→V NP
NP → Det N : a man VP → V NP : meet Taro
25
論理式への変換 2
S→NP VP、 NP→Det N、 VP→V NP
• “A man meets Taro.” を論理式に変換する
V.sem=λy λx Meet(e1, x, y):e1はxがyに会うというeventであるという意味
x=Isa(n1, Man), y=Taro• S.sem= Meet(e1,<Isa(n1, Man)>, Taro)
論理式Isaが論理式Meetの中にあるので これは準論理式
26
論理式への変換 3課題
• スコープの曖昧性 everyが及ぶ範囲
“Every woman loves a dog.” 犬は全体で1匹か、女性ごとに1匹か
一般には文外の文脈情報などが必要
• 慣用句やイディオムは構成性の原理が成立しない
• 統語解析を前提にするので、大規模コーパスなどを使用しにくい
文献10:白井清昭、論理式への変換、言語処理学会編(石崎編集委員長)、言語処理学事典、共立出版、 2009、 pp.186-7
27
言語処理基本技術の精度
日本語 英語
• 形態素解析 99% 97%• 固有名解析 88% 92%• 統語解析 90% 90%• 格解析 85% 80%• 照応・省略解析 40~60% 65~75%• 談話構造解析 70~80% 70~80%
照応解析:指示代名詞などの対応付け
談話解析:文間の意味の結びつきを解析
文献12 黒橋、自然言語処理概論、Alagin 第1回自然言語処理分科会セミナー、2010
28
2 機械翻訳
2.1 機械翻訳システムの開発の経緯
2.2 規則に基づく翻訳 中間言語方式とトランスファー方式
2.3 用例に基づく翻訳
2.4 統計に基づく翻訳
2.5 産業翻訳
2.6 機械翻訳の課題と展望
29
2.1 機械翻訳システムの開発の経緯
• 機械翻訳専用機ヤマト 1959年 パリ万博では公開
英語入力、品詞列、日本語品詞列に変換、
助詞の追加、訳語をカナ表示 第1次翻訳ブーム
• ALPAC レポート 1966年 翻訳研究批判で下火に
• トランスファー方式の翻訳システム
構文情報のレベルで変換する規則に基づく方式
多数の商品レベルが開発された 第2次翻訳ブーム
数十万語以上の辞書項目、しかし、性能は不十分
• 用例に基づく方法や統計に基づく方法が開発される
30
2.2 規則に基づく翻訳
• 1980年代にはコンピュータの性能が格段に上がっ
て、人間が翻訳に使っている情報を翻訳規則としてまとめて使用する方針
統語解析、格解析 → 変換 → 言語生成
• 学術論文のアブストラクトや製品マニュアルの翻訳
• 現在インターネット上で使用する翻訳システムの多くはこの方式の延長上
• 商用システムでは規則は数千以上になる。
文献8 中川編著、音声言語処理と自然言語処理、コロナ社、201331
規則に基づく翻訳の問題点
• 1980年代に多数の翻訳システムが開発されたが、当初の目標はなかなか達成できなかった。
• 言語に関する規則はある程度高いレベルになると例外的な規則が多くなり、それらの相互関係の管理が極めて複雑になる。人工物の設計や管理なら可能でも、人間の自然言語は世界や変更ができないので、複雑な規則の作成や相互関係の記述は困難になる。
「まだ予約は入れていません」
→ I haven’t make a reservation yet. しかし、和英辞典の「入れる」の項目に18種類の語義があ
るが、”make”はない。対象や文脈によって訳語は変化する
32
2.3 用例に基づく翻訳
• 膨大な翻訳規則を作るのを避けて、翻訳の過去の用例の中から、最も近い用例を見つけて、訳語の選択や構造のずれを調整して翻訳する方式。
• 大規模な2言語の対訳コーパスが必要であるが、1990年代後半から徐々に整備されて来ている。
• 翻訳サポートシステムとしての利用に役立ち、翻訳者による追加修正を含めて拡充していく。
• Web上での幅広い使用に向いたやり方
文献10 黒橋、用例に基づく翻訳 pp.264-5
33
用例に基づく翻訳の例と課題
• 「水をかける」における「かける」の翻訳用例を探す
(1) (看板を)かける = hand up (a signboard)
(2) (ソースを)かける = pour (souce)
(3) (CDを)かける = play (a CD)
(4) (目覚ましを)かける = set (an alarm)
水とソースの類似性から用例(2)が選択される 文献10 黒橋
• 翻訳システムの性能は、用意する翻訳用例の質と量、類似する用例を見つける方法に依存する
• 用例から必要な部分を組み合わせるには処理時間がかかるので学習法が応用されている
文献9 荒木、自然言語処理ことはじめ、森北出版、2005
34
2.4 統計に基づく翻訳
• 同じ内容を2言語で記述した大規模な対訳コーパスで統計モデルを学習し、もっとも高い条件付確率を与える翻訳を選ぶ。
• 単語対応方式
英語とフランス語のような対応関係があれば有効
• 句対応方式 句:連続単語の意味
文をいくつかの句に分割して翻訳し、結果を並べ替える方式。
あらゆる分割可能性に対して、準最適解を求める。
• 自動評価尺度BLEU (BiLingal Evaluation Understudy)
文献10 塚田元、統計に基づく翻訳、pp.266-7
35
Google翻訳
• Google翻訳の原理
何億もの文書からパターンを探しだします。既に人間の翻訳者によって翻訳された文書からパターンを検出することで、どのような訳文が適切かを考えて推定する仕組み。統計的機械翻訳手法
• フリーな翻訳システムとして高性能を発揮している
• ちょっと面白い例 AAMTからの情報に基づくWeb記事
“how are you?” “fine thank you!”⇒「お元気ですか?」「ありがとう罰金!」
「2個目を除去する」⇒ 「I remove two eyes」文献: 面白すぎるGoogle翻訳の誤訳内容
http://cb-l10n.blogspot.jp/2014/03/blog-post_6.html(まとめサイト)
36
2.5 産業翻訳
• 機械翻訳における市場の発展
まず大企業内のマニュアルなど
次に、Web情報を個人で翻訳 パッケージソフト使用
さらに、産業翻訳 産業レベルの翻訳市場
・企業のグローバル化に伴って発展する
・企業内情報の多言語化、技術文書を含む
・企業のWeb情報の多言語化
・このレベルの市場規模は数10兆円と言われている
文献1437
日英の対訳データの例
• 読売新聞 契約で無料
• 英辞郎 辞書 数千円、英辞郎例文 数千円
• 日英中基本文 例文集 無料
• NTCIR PatentMT 特許 契約で無料
• Wikipedia 言語間リンク 辞書 無料
• 京都関連Wikipedia 百科事典 無料
• TED講演 無料
文献12 Graham Neubig、機械翻訳、ALAGIN自然言語処理分科会セミナー、2013
38
2.6 機械翻訳の課題と展望
・ 2010年ころまでは、統計的な手法と大規模コーパスを用いる技術が進展して性能が向上してきた。
・英仏、日韓などの言語的に近い場合は実用レベル
・大規模な対訳データなどの言語資源があれば高精度な翻訳
が可能。Webなどから対訳データが大量に収集できる分野は得
意。専門用語や慣用句は登録してある。
・ 大きく異なる言語対では、単語の対応も取りにくい
・対訳データがない場合や、英語を含まない言語対の翻訳は苦手
・統語情報の利用で精度は上がるが、解析誤りの影響は大きい
文献12 Graham Neubig・自動翻訳サービスではGoogle、Yahoo、Exite翻訳の精度の満足
度が良いが、アンケートでは、「どれも満足できない」がトップ39
機械翻訳の課題と展望 2
• 人間なら間違わないような誤訳例がまだ少なからず見られる。入力文を人間のように理解して翻訳しているわけではなく、表層的な分析に基づく統計的な数値で決定していることによる。
• 人間が状況や文脈を用いて入力文を容易に理解して言語処理している仕組みはまだ未解明。子供が学習して知識を増やしていく仕組みもよく分かっていない。
• 文脈理解や知識の自動獲得をシステム化して、実用的段階に進歩するのはまだ時間がかかる。翻訳対象分野ごとに機械翻訳に適した文章を入力する必要があり、そのようなコストに見合うニーズのある分野で翻訳データが整備されていく。
40
3 産業日本語
3.1 はじめに
産業日本語シンポジウム 20143.2 特許版産業日本語
(1) 特許版ライティングマニュアル
(2) 読解支援システム
(3) 可読性診断システム
(4) 構造化言語と文章ライティング
3.3 制限言語と国際標準
41
3.1 はじめに• 産業日本語研究会の活動
高度言語情報融合フォーラム(ALAGIN)、言語処理学会、
(一社)日本特許情報機構(Japio) 共催
産業・技術情報を人に理解しやすく、かつ機械処理しやすく
するための日本語を研究し、その普及活動を行う
特許、翻訳、法令工学、技術文書など
• SCOPE(2005~7)、(財)日本特許情報機構Japioにおける産業日本語研究 文献18、19
特許文を主な対象に日本語の明晰化と機械翻訳
(財)機械システム振興協会からの委託研究(2007年度)• ホームページ http://www.tech-jpn.jp/xoops/html/
42
産業日本語研究会シンポジウム第5回 2014年2月27日 文献13
主な内容
• 特許版産業日本語 関係するテーマ4件(内3件は後出)
• 法令工学の言語処理 島津(北陸先端大教授)• 実務翻訳におけるスタイルガイド
田中(日本翻訳連盟理事)
• 取説新時代に向けてのテクニカルコミュニケータの役割 山崎(テクニカルコミュニケータ協会代表理事)
• システム開発文書の品質向上への取り組み
塩谷(システム開発文書品質研究会幹事)
43
3.2 特許版・産業日本語の最近の活動
• 特許版・産業日本語の枠組み
・特許ライティング支援環境の調査・研究
・特許法36条(特許明細書、特許請求の範囲の記載要件)
ルール化の検討
・平成25年度には特許ライティングマニュアル(初版)発行
特許文書は権利範囲を示すために一文が長く専門用語、
特有の言い回し、抽象表現が多いので、理解が難しい。
⇒ 特許明細書作成ガイドの作成
コンピュータによる特許ライティング支援
文献13 松田 特許版・産業日本語の活動報告
44
(1) 特許ライティングマニュアル(初版)8つのルール(1)
• ルールA 長文を複数の短文に分ける。
列挙される要素は説明を後続文に移す、など
• ルールB 雑然とした並びを適切な順番にする
主題成分を先頭に明示する
修飾要素は被修飾要素の近くに置く、など
• ルールC 省略された主語や目的語を明示する
「もの」は具体的に書く、など
• ルールD 格助詞「の」や「で」の曖昧性を避けるために明
示する表現に書き換える、など 文献1345
特許ライティングマニュアル(初版)8つのルール(2)
• ルールE 主題や条件節を明示するために読点で区切る。
複文表現や因果関係を分かりやすく言い換える、
など。
• ルールF OR並列やAND並列表現を分かりやすくする、など
• ルールG 冗長な表現を簡潔に言い換える。
ものである⇒である、もまた⇒また、実現できる⇒
できる、できるようになる⇒できる、など
• ルールH 難解表現を平易表現に言い換える。
封止する⇒シールする、挟持する⇒挟んで支える、
配設する⇒配置し設置する、など 文献1346
コンピュータによる特許ライティング支援
三つの支援システムの具体的検討
• 読解支援システム
特許請求の範囲などの読解を支援するシステム
• 可読性診断システム文書の品質向上のための作業の効率化と、文書の品
質の均一化を支援するシステム
• 特許明細書半自動生成システム特許明細書設計書から、部品情報(特許部品DB)を用い
て、特許明細書を半自動的に生成するシステム
文献1347
(2) 読解支援システム
• 特許請求の範囲などの読解を支援するシステム
文の意味構造を、語や句を要素として、意味的関係を表示し
たセマンティックグラフ形式で表現することで、人間にもコン
ピュータにも扱いやすい構造にする。
データの1次利用
文書の読解を容易にして誤読を防止
文書作成、記録作業のコストを低減
データの2次利用
標準オントロジーによる正確な意味的構造化
翻訳、検索、要約、分析などの自動化
特許だけでなく、病理診断報告書でも有効性を検討
文献13 橋田、グラフ形式に基づく文書作成支援 48
特許(仮想)の請求項(従来形式)
• メール受信サーバから受信した電子メールのヘッダーにより指定された配信日時が到来しているか否かを判断する通知タイミング判断部と、
• 前記通知タイミング判断部において配信日時が到来していないと判断された電子メールについて、受信メモリに保持するか或いは前記メール受信サーバへ返却するかを判断する返却要否判断部と、
• 前記返却要否判断部において前記メール受信サービスへ返却すると判断された電子メールについて、ヘッダーを変更するヘッダー変更部と、
• 前記ヘッダー変更部においてヘッダーが変更された電子メールをメール送信サーバへ送信する送信部と、
• を備える通信端末。49
通信端末
通知タイミング判断部
メール受信サーバから受信した電子メールのヘッダーにより指定された配信日時が到来しているか否かを判断
返却要否判断部
前記通知タイミング判断部において配信日時が到来していないと判断された電子メールについて、受信メモリに保持するか或いは前記メール受信サーバへ返却するかを判断
ヘッダー変更部前記返却要否判断部において前記メール受信サービスへ返却すると判断された電子メールについて、ヘッダーを変更するヘッダー変更部
送信部前記ヘッダー変更部においてヘッダーが変更された電子メールをメール送信サーバへ送信する送信部
特許(仮想)の請求項(グラフ形式)
構成要素
機能
機能
50
(3) 可読性診断システム
• 文書の品質向上のための作業の効率化と、文書の品質の均一化を支援するシステム
• 入力文例 元旦の朝が到来して年賀状を閲覧することができるようになるまで、受信メールを削除したり外部メモリへ退避することができないから、その間、メール受信端末105は実質使用不可能になるという問題がある。
• 診断結果例
・「退避したりすることができない」の主語がない。
・「まで、」ー「退避したりすることができない」
「まで、」ー「ある」 複数の解釈有り
・ 「その間、」ー「ある」
「その間、」ー「なる」 複数の解釈有り 文献13 松田51
(4) 構造化言語と文章ライティングーー構造化クレームを用いる請求項文ライティングーー
• 横井俊夫氏
明晰日本語に続いて産業日本語についても主導的立場
• 構造化言語とは、
表現対象の情報の構造を明示する仕組みを持つ言語。
・産業技術文章では、言語間にまたがる構造を保持し、文章
の翻訳を精度高く実現する。
・特許文書における請求項文に適用して、構造化クレームに
よって特許文の多くの問題を改善する
文献13 横井、構造化言語と文章ライティング
52
構造化言語 横井[13, 15]
• 構造化言語の表記法
文における主題部とその記述、
接続詞を用いる事象間の構造の記述、
法令文などにおける複雑な並立表現のための記述など
• 構造化言語で構造化テキストを表現する
句や節単位の表現を意味的につなぐ構造
印象深さ重視の表現法、用語辞典等の正確さ重視の
表現法、特許う請求項などの厳格さ重視の表現法
構造化テキストのレベルで英文請求項(claim)と和文請求
項を変換(翻訳)、中国語請求項も検討されている。
• 線状化 構造化テキストを通常の文として記述する53
構造化クレームを用いる
請求項文ライティングと翻訳 横井[13]を改変
和文構造化クレーム作成
翻訳原稿用和文構造化クレーム
英文構造化クレーム
英文請求項文
基本パターンから選択 14個実現パターンに書き換える
和文構造化クレームに仕上げ
翻訳用和文構造化ク
レームに書き換え
和文請求項文
日英翻訳
線状化による和文
請求項文の作成
線状化による
英文請求項文の作成
特許請求内容
54
3.3 制限言語と国際標準
• 制限英語
• 欧州と米国の航空業界は、航空機の整備マニュアルのためにSimplified Technical English(STE)を制定している。諸外国
の空港の整備担当者は他言語話者の場合が多いので、間違いのないように単純化した自然言語の標準化を進めた。
• 欧米の制限英語の取組みと産業活動への普及活用状況
米国ボーイング社、フォード社、欧州でも米国と協力している
• ISOへ提案し、公的な国際標準化を進めている
55
自然言語に関する国際標準
• ISO/TC 37 国際標準化機構ISOの技術委員会37国際標準に関する用語を全般的に担当し、翻訳、通訳、
コンピュータによる言語処理、言語資源の標準化も扱う
Terminology, other language and content resources日進月歩の先端技術用語については、まず、国際標準化
関連用語(英語)として世界の学会、工業会、協会で制定さ
れている。日本ではJISの規格書の様式をJIS Z 8301で定
め、分野ごとに使用する用語の定義を定めている。
• 制限英語の国際標準
ISO 24620-1 Simplified natural language – Part 1: Basic concept and general principle
56
言語処理のための日本語の制限の例
• 規格化日本語(吉田将) (文献5より)
コンピュータにとって曖昧さを減らすために日本語を規格化する。
例えば、順接の「が」は使わずに文を分ける。可能の「られる」は使
わない。
「やり方は二つに分けられるが、まずA方式について・・・」
⇒「やり方は二つに分けることができる。まずA方式について・・・」
• 機械翻訳のために制限日本語
・機械翻訳システムの開発者が1980年代後半に検討←批判有り
本人でないと意味が分からないものや、高度な専門知識がないと
構文や意味的つながりが不明なものが多い。入力用の原文を作
る段階で、ある程度の制限を設けて分かりやすい文章を書くこと
を目的とする。 57
4 日本語の論理性と言語処理
4.1 はじめに
4.2 日本語の論理性
4.3 言語の思考
4.4 日本語処理の展望
58
4.1 はじめに
• 日本語処理・機械翻訳の立場から検討
常に論理的に記述されていれば、コンピュータにとって扱い
やすく、機械翻訳の負担が減って性能向上が期待できる。
• 日本語の論理性
・日本語の論理性を高める必要がある 辻井[11]
・日本では論理的に話を進める訓練ができていない 山口[2]
・正確・客観的に事実を伝えたり、論理的に意見を述べる
教育が不十分 木下[3]
・思考内容における論理性と、それを文法的に正しく言語表
現するために必要な思考を区別し、それらの間の相互作
用は少ないとする。 ピンカー[4]
59
4.2 日本語の論理性外山滋比古、日本語の論理[1]
• 「日本語には欧米語と性格の異なる論理があると強く考えるに至った。」 (あとがき)
• 「一部の日本語の論理が曖昧になるのは、比較的新しいことば、翻訳の文章あるいは欧文脈の持つ不自然さと言ってよく、根を下ろした日本語ではない」
(あとがき)
• 「外国語の学習は、古典の学習と同様な優れた思考や発想に役立つ」
語学としての外国語学習とは区別し、芸術や思想を含む
文化を学習する意味がある。 (第3章 外国語の学習と思考)
60
日本語の歴史 山口仲美[2]
• これからの日本語をどういう方向に変えていくべきか
⇒それには日本語の盛衰の歴史を知る必要がある
• 日本語の歴史は、話し言葉と書き言葉のせめぎ合い
• 鎌倉時代以降に、係り結びの消滅と共に、文間の論理的関係を表す接続詞が発達
されば、しかれども・・・
• 明治時代の西欧書物の翻訳
言文一致体ではなく漢文直訳調
• 言文一致体 話し言葉と書き言葉の一致
ヨーロッパではルネッサンス以降にイタリア、イギリス、ドイ
ツなどで次々に言文一致運動が起こった。日本は明治以降61
日本語の歴史 山口仲美[2]
• 日本語の論理性を生かす
・日本語は主語、目的語、文間関係を示す接続詞を使うの
で、非論理的とは言えない。
・しかし、論理的に話しを進める訓練がなされていない
・アメリカでは小学校から訓練している
• 文脈や背景の読めない相手には、言葉をきちんとつなぎ合わせて手渡す訓練がこれからの課題
62
曲がり角の日本語 水谷静夫[5]
• 頻発する格助詞の誤用、省略
理系論文の謝辞の例 「○○先生がこの問題についてご
親切に指導していただいたことを感謝します。」
「が」⇒「に」 この間違いの指摘に賛同した人は1/3くらい
• 「酒が飲みたい」と「酒を飲みたい」
君が欲しいのは何か?⇒酒が飲みたい 酒が+飲みたい
君は何をしたいか? ⇒酒を飲みたい 酒を飲む+たい
「象は鼻が長い」
• 関東地方に地震があった ⇒ 関東地方で地震があった
• 今後の日本語の傾向は、助動詞の衰退、敬語の変質、命令形の減少
63
4.3 言語と思考
• 日本語の思考法 木下是雄[3]「地球時代の日本語を考える研究委員会」
当時の通産省系の財団の委員会で1991年設立。言語技術教育
導入の提案を目的として、若い人たちに世界に通じる明快・明晰
な発信能力を付与するために、言語技術教育を導入する。
1 正確・客観的に事実を伝える
2 明確・論理的に意見を述べる
3 いきいきと心情を伝える
欧米の言語教育に比べて上記の1と2が甚だ不十分
• 「ビジネス・コミュニケーション研究委員会」 JETRO 1995
日本人と外国人とのビジネス・コミュニケーション上の誤解や摩
擦の解消を目的、国内外の調査。 木下座長、石崎委員 文献[16]64
思考する言語 ピンカー[4]
• サピア・ウォーフの仮説 思考は使用する言語によってコントロールされるとする言語決定論。思考の手段は単語や文で構成されている。言語表現のない概念を思い浮かべることはできない。
色の語彙と虹の色数の関係、エスキモーの雪の語彙の多さ
• ピンカーは詳細に反論し、話すための思考と論理的思考を分離することを主張している
話すための思考:
単語を選んだり文を組み立てるための言語に依存した思考
論理的思考: 話すための思考による影響はわずか。
思考の言語 人間の基本的な概念構造で世界中に存在
概念意味論として主張65
思考する言語 ピンカー[4]
• ピンカーはチョムスキーの門下
• チョムスキーの生成文法理論はコンピュータによる言語処理と相性が良い。
• 言語の基礎能力は人類に普遍的で、生成文法は言語依存する文法を作り出す基礎能力
• 言語で表される意味を論理の枠組みで表現する指向性をもつが、基本的な意味を対象
66
4.3 日本語処理の展望 (未完)
• 日本語の論理性
・思考の論理性、記述の論理性、日本語の論理性に分類
・教育の問題が指摘されている 思考と記述の論理性問題
• 日本語処理に現代論理学を導入して、デジタル・フォレンジックや機械翻訳に役立てること 辻井[11]・日本語と英語の係り受け構造の違い
・論理式で意味を表現して、推論で意味を理解する
• 現在の日本語処理の性能は、人間の能力と比べると格段にまだ差がある。コンピュータは人間の持つ常識などの知識を持っていない。
67
編著書1 石崎, 知識・知能と情報,板橋編著,近代科学社,19922 石崎, 自然言語理解におけるヒューマンインタフェース,大須賀編 ヒュー
マンインタフェース, オーム社, 19923 安西、石崎他編著、認知科学ハンドブック、共立出版、19924 石崎, 自然言語処理, 昭晃堂, 19955 天野,石崎他,自然言語処理,1章,4章担当,オーム社,20076 言語処理学会編(石崎編集委員長)、言語処理学事典、共立出版、20097 同、 デジタル言語処理学事典、共立出版、2010
訳書8 渕監訳, 石崎訳, 考えるコンピュータ, ダイヤモンド社, 19859 R.C.Schank & C.K.Riesbeck 著, 石崎監訳, 自然言語理解入門, 総研
出版, 198610 R.S.Michalski他編, 電総研人工知能研究グループ他訳(石崎翻訳編集
責任)、知識獲得と学習シリーズ1~8,共立出版,1987~1989
68
文献
1 外山滋比古、日本語の論理、中公文庫、2010,1987(初版)
2 山口仲美、日本語の歴史、岩波新書、2013,2006(第1刷)3 木下是雄、日本語の思考法、中公文庫、20094 スティーブン・ピンカー、幾島他訳、思考する言語、NHKブックス、20095 水谷静夫、曲り角の日本語、岩波新書、20116 田中克彦、言語学とは何か、岩波新書、2008、1993(第1刷)7 岩淵悦太郎、日本語対談、筑摩書房、19788 中川聖一、音声言語処理と自然言語処理、コロナ社、20139 荒木健治、自然言語処理ことはじめ、森北出版、200510 言語処理学会編(石崎編集委員長)、言語処理学事典、共立出版、200911 辻井重男、放送・通信の4類型と情報セキュリティ概念の高度化、MELT up
フォーラム 日本の情報通信産業の盛衰から再生へ、2014
12 自然言語処理研究分科会セミナー、 ALAGIN高度言語情報融合フォーラム
2010~201369
文献 213 第5回産業日本語研究会・シンポジウム予稿集、Alagin, 言語処理学会
Japio, 2014年2月14 自然言語処理技術の現状と展望に関する調査研究, NEDOなど、200215 ISeC10周年記念シンポジウム予稿集、NPOセマンティックコンピューティ
ング研究開発機構、201316 ビジネスコミュニケーションに関する補助事業実施報告書、日本貿易振
興会、199617 次世代特許審査システム用検索ツールの基礎調査、(財)日本システム
開発研究所、200418 総務省SCOPE調査報告書、CDL(Concept Description Language)
の仕様策定と標準化、NPOセマンティック・コンピューティング研究開発
機構200819 (財)日本特許情報機構Japio Year Book、産業日本語特集、2008
70
ありがとうございました。
• ご意見、関連情報などをいただければ幸いです。
71