Upload
others
View
1
Download
0
Embed Size (px)
Citation preview
高精度日中・中日機械翻訳と中国文献データベース
2019.1.22情報企画部
第29回 中国研究サロン
情報基盤強化と日本の研究成果の発信
JST情報事業では、研究開発活動に必要な科学技術情報(国内の論文、特許等の研究成果、研究者、研究機関の情報等)を体系的に収集、整備、公開しイノベ—ション創出を支える科学技術情報インフラの構築を行っている。
さらには関連する情報同士をつなぎ分野や業種の垣根を越えて発想を支援する、科学技術情報の統合的な検索や分析を可能とするサービスも提供しており、あらゆるシーンの課題解決へのヒントを提供し、研究開発を情報面から支援している。
2
J-GLOBAL
「つながる、ひろがる、ひらめく」をコンセプトに、これまで個別に存在していた科学技術情報をつなぎ、発想を支援するサービス
10種類が一度に検索研究者約25万人
特許約1,244万件
機関約49万機関
化学物質約358万件
文献約4,373万件
科学技術用語約33万語
資料約15万誌
研究課題約6万件
遺伝子約6万件
研究資源約5,000件
意外な情報を発見
3
JDreamⅢ
http://jdream3.com
国内外の医学・薬学・科学技術文献を網羅。学協会誌(ジャーナル)、会議・論文集/予稿集、企業技報、公共資料などを情報源としており、あらゆる科学・技術分野の研究者から高い支持を受けています。
収録数6,000万件。信頼性が高く、高品質な国内外の医学・薬学・科学技術文献を網羅
お客様のビジネス・研究に直結する効率的な情報収集が可能
20年以上データベースサービス運営実績のある株式会社ジー・サーチが、お客様の検索・調査業務を強力にバックアップ
科学技術や医学・薬学関係の国内外の文献情報を検索できる日本最大級の科学技術文献データベース
4
中国文献データベース 「JSTChina」
中国国内で発行される科学技術文献約10,000誌のうち、JSTが厳選した約1,300誌に掲載された文献情報の書誌、抄録、索引を日本語で提供。
無料の簡易検索サービスであるJ-GLOBAL、および高度検索サービス等を有料で提供するJDreamⅢ(㈱ジー・サーチにより運営)からアクセスが可能。
提供開始 収録年代 2018.3末収録件数
2018年度新規収録件数
2007年2月より公開 1981年~ 約230万件 約50万件
(予定)
日本国内に中国の科学技術文献情報を流通させ、中国科学技術力の認知度向上と、日本の科学技術力向上をサポート。
5
和文標題、抄録を機械翻訳して表示(英文標題・抄録があれば併せて表示)
JSTChinaの検索表示画面 (JDreamⅢ)
6
人手翻訳から機械翻訳へ
全米科学財団(National Science Foundation, NSF)が発表した世界の科学技術の動向をまとめた報告書「Science and Engineering Indicators2018」によると、2016年の論文数世界ランキングでは、
1位は中国 、以下、2.アメリカ、3.インド、4.ドイツ、5.イギリス、6.日本、7.フランス、8.イタリア、9.韓国、10.ロシア、11.カナダ、12.ブラジル、…
の順。この結果から、日本が隣国から吸収すべき科学技術情報が多くあると推察。
機械翻訳の必要性増え続ける科学技術情報に対し、外国で出版される文献も広くカバーし、即時性を確保しつつ日本語で抄録を提供したい。特に、中国文献の収録件数拡大は人手翻訳では困難。科学技術論文を高精度で翻訳できるエンジンが求められていた。
7
JSTと京都大学(大学院情報学研究科 黒橋・河原研究室)が5年間のプロジェクト(2013~2017年度)を推進。
科学技術文献情報に特化し、最新のAI技術(ニューラルネットワークによる深層学習)を導入。
深層学習には、JSTが長年蓄積してきた科学技術文献を対象とした中国語・日本語の対訳コーパス(機械翻訳の訓練に用いる教師データ)を中国科学技術信息研究所と連携して整備。
日中・中日機械翻訳システム
実用に供する世界最高水準の翻訳精度を達成
8
翻訳工程学習工程
実現した「ニューラル機械翻訳」の仕組み
機械翻訳エンジン(ニューラルネットワーク)
の訓練
訓練用対訳コーパス(翻訳事例データ)
翻訳モデルの生成
機械翻訳エンジン+
翻訳モデル
翻訳対象原文
翻訳結果
400万件以上の中国語・日本語の対訳コーパスを用いたニューラルネットワークによる深層学習
9
機械翻訳の種類と特徴
種類 特徴 訳質分布イメージ
ルールベース機械翻訳
• ルールや辞書にあれば正確かつ揺らぎのない翻訳ができるが、人手によるルール整備に手間が掛かる。
• 翻訳の根拠を説明できる。• 翻訳文がぎこちない。
統計型機械翻訳
• 対訳コーパスから学習。(ルール作成は機械処理)
• 多言語化が容易。• 翻訳の根拠を説明できない。
ニューラル型機械翻訳
• 対訳コーパスから学習の点で統計型と同様。(多言語化が容易、翻訳の根拠を説明できない。)
• 統計型よりも翻訳文が滑らかで読み易い。• 訳抜けや湧き出しが発生し易い。
1 2 3 4 5悪い 良い⇔
1 2 3 4 5悪い 良い⇔
1 2 3 4 5悪い 良い⇔
10
中日機械翻訳の精度
0%
20%
40%
60%
80%
100%
58
5
34
3 0
5
4
3
2
1
容易に理解できる
ほとんど(75%以上)の重要情報あり
情報に過不足がない
重要情報50%未満
重要情報50%以上あり
約60% 97%
約60%の翻訳文は情報に過不足がなく容易に理解可能また97%はほとんど(75%以上)の重要情報を正しく翻訳~科学技術論文において実用に供する翻訳率を達成~
11
「第13回(2018年)アジア太平洋機械翻訳協会 長尾賞」を日中・中日機械翻訳実用化プロジェクトが受賞
受賞について
✻ 開発したニューラル機械翻訳エンジンは、2016年12月に開催されたアジア言語を対象とした国際的な機械翻訳のワークショップ「WAT2016」(Workshop on Asian Translation 2016)での評価において、科学技術情報の機械翻訳タスクで1位の精度を達成しています。
日中・中日機械翻訳の実用化において、最先端の機械翻訳技術であるニューラル機械翻訳をいちはやく独自開発し、その有効性を広く知らしめるとともに、その成果を一般に公開し、日中間の科学技術交流の促進に供していることが評価されました。
12
日中・中日機械翻訳のWEBサイトを公開中
https://webmt.jst.go.jp/
翻訳対象 科学技術文献特許文献
入出力機能 テキストファイル、PDFファイルからの原文入力テキストファイルへの翻訳文出力
翻訳機能 中日機械翻訳日中機械翻訳
13
ご清聴ありがとございました非常感谢
中国文献データベース 「JSTChina」並びに科学技術文献の翻訳に高精度の
日中・中日機械翻訳システムをお試しください