Upload
takahashi-kanji
View
51
Download
7
Embed Size (px)
Citation preview
文献紹介(H26/7/1)
Improving SMT qualitywith morpho-syntactic analysis
長岡技術科学大学 高橋寛治
概要
• 言語情報を与えると統計的機械翻訳の性能が向上すると期待
• 40%の単語はコーパス中で1回しか現れない
• 独英統計的機械翻訳において、形態的統語的情報を利用することにより性能が向上
• Sonja Nieflen, Hermann Ney, COLING, 2000, Vol.2
コーパスの統計一度しか現れない
全体図
分離動詞
• 英語 Go out:外出する
• ドイツ語 Out go -> Outgo
• ausgehen 外出する, aus|gehen• 【分離前つづり+基礎動詞部分】
• フランクは 今晩 ペトラと 外出する。• Frank heute Abend mit Petra ausgehen.
• Frank geht heute Abend mit Petra aus.
分離動詞の書き換え(verb prefixes)• フランクは 今晩 ペトラと 外出する。
• Frank geht heute Abend mit Petra aus.
↓
• Frank heute Abend mit Petra ausgehen.
複合語(split compounds)
• 複合語「Ftuchtetee」は翻訳できない
• それぞれの要素「Ftuchte」,「 Tee」はコーパス中に存在→翻訳可能
• トレーニングに存在しない複合語は分割
品詞付与(pos)
• 語義曖昧性解消の手掛かりに品詞を利用
• Aber• 副詞, 接続詞
• Zu• 副詞, 前置詞, 分離した動詞の接頭辞, 不定詞の指標
• Der, die, das• 定冠詞, 代名詞
間違って翻訳されやすい
• “Das wurde mir sehr gut passen.”• 正:“That would suit me very well.”
• 誤:“The would suit me very well.”
• “Das war zu schnell”• 正:“That was to fast.”
• 誤:“That was too fast.”
熟語の結合(merge)
• 2語以上からなる熟語は文中での振る舞いが全く異なる• “irgend etwas” (“anything”)
• 熟語21語を一語としてエントリー• “irgend-etwas”
未収録語
• トレーニング中に存在しない固有名詞は、そのまま出力• 固有名詞の出力文中での位置は大抵正解
• 重複するが、複合語の分割はドイツ語の未収録語を減らす
• 未収録語を一般形に変換することで、ある時は意図された意味を翻訳できる• “kaltes”->”kalt” (cold), “Jahre”->”Jahr” (years)
翻訳
• コーパス• VERBMOIL
• 日程決めの会話のコーパス
• 入力• テキスト、音声認識(認識精度69%)の二つ
• トレーニングセット• 45680組の文
• テストセット• 未収録語を含まない147文
• 評価にSSER(著者ら2000)を利用• 人手で評価• 0.0:意味も構文も正しい• 1.0:完全に間違い
結果
• 複合語の分割により、語の種類数が減る。
• 1度しか現れない語は2.8%減少。
結果
• テキストを翻訳 • 音声認識を翻訳
品詞付与、熟語の結合、動詞の一般化が翻訳性能に寄与
まとめ
• 形態的統語的情報を利用して統計的機械翻訳を精度向上• 複合語
• 分離動詞
• 品詞付与
• 熟語
• 未収録語
• 自然な対話で有効性を確認