37
OmegaT ダブリン計算言語学研究セミナー Didier Briel 2012年6月 この文書は、原著者Didier Briel の許諾を得て、Yu Tang が翻訳・公開するものです。 著作権はDidier Briel が保有しています。査読協力Jean-Christophe Helary (感謝!)。 Original document in English, copyright Didier Briel

OmegaT プレゼンテーション 2012

  • Upload
    yu-tang

  • View
    2.783

  • Download
    0

Embed Size (px)

DESCRIPTION

2012/6/29 に行われたダブリン計算言語学研究セミナーにおける Didier Briel 氏の発表資料日本語訳です。オリジナル (PDF) は http://www.didierbriel.com/news/dclrs.html より入手可能です。日本語版作成に当たり、PDF の埋め込みフォントには Migu 1P (http://mix-mplus-ipa.sourceforge.jp/) を使用させていただきました。ありがとうございました。

Citation preview

Page 1: OmegaT プレゼンテーション 2012

OmegaT

ダブリン計算言語学研究セミナーDidier Briel

2012年6月

この文書は、原著者 Didier Briel の許諾を得て、Yu Tang が翻訳・公開するものです。著作権は Didier Briel が保有しています。査読協力 Jean-Christophe Helary (感謝!)。

Original document in English, copyright Didier Briel

Page 2: OmegaT プレゼンテーション 2012

2012年6月

目次

• OmegaT のワークフロー• 主要機能• プラグイン• 対応可能なファイル形式• 他の翻訳支援ソフトとの互換性• OmegaT プロジェクト• 入手方法• サポート

ダブリン計算言語学研究セミナー

Page 3: OmegaT プレゼンテーション 2012

OmegaT

OmegaT のワークフロー主な特徴

ファイルの翻訳

実演

Page 4: OmegaT プレゼンテーション 2012

2012年6月

OmegaT のワークフロー主な特徴

• 完全なスタンドアロン– 外部のソフトウェア(たとえば Microsoft Office)がインス

トールされているかどうかに、まったく依存しない

• Java 1.5 以上に対応するすべてのプラットフォーム上で動作

• 中間形式ファイル不要– 準備不要

• インポートまたは変換

– 「後始末」不要

– プロジェクトの変更(文書の追加/変更/削除)は動的に即時反映

• データベース不要– すべてのデータはメモリ上で処理される

– 非常に高速

– データ量には制限あり

• 翻訳の自動反映(Automatic propagation)

ダブリン計算言語学研究セミナー

Page 5: OmegaT プレゼンテーション 2012

2012年6月

OmegaT のワークフローファイルの翻訳

• プロジェクトを新規作成

• もし必要であれば、原文ファイルを変換

• 用語集と翻訳メモリをインストール(ファイルコピー)

• 翻訳

• 訳文ファイルを生成

• もし必要であれば、訳文ファイルを変換

ダブリン計算言語学研究セミナー

Page 6: OmegaT プレゼンテーション 2012

OmegaT

主要機能

RTL と bidi 対応

Page 7: OmegaT プレゼンテーション 2012

2012年6月

コンセプト

主要機能

• 参考訳文• 翻訳の自動反映(Automatic propagation)• 用語集• プロジェクトや参照している翻訳メモリ、文書を対象とした

検索• プロジェクト内にフォルダーやファイルを無制限に配置可能• 右から左への横書き(RTL)および文字表記方向混在(bidi)

入力• タグ検証(妥当性検証)• 綴り確認(Hunspell または JMySpell)• 国語および多国語辞書(StarDict または Lingvo DSL 形式)• 機械翻訳(Google Translate, Apertium, Belazar)

ダブリン計算言語学研究セミナー

Page 8: OmegaT プレゼンテーション 2012

2012年6月

コンセプト

主要機能: RTL と bidi 対応

• 翻訳支援ツールには LTR と RTL 言語の混在表示が求められる– 英語からアラビア語へ– ヘブライ語から英語へ

• OmegaT は分節の表示方向を自動的に切り替える– 各分節の先頭にある Unicode マーカーで表示方向を設定– 向きは手動で指定することも可能(Shift+Ctrl+O)

• RTL 言語の分節の途中で、LTR への切り替えが必要な場合がある– 外国語の名前– 電話番号

• José García-Verdugo(スペイン、カスティーリャ・ラ・マンチャ大学 アラビア語-スペイン語教師)– ”わたしは OmegaT を選びました。右から左方向へ、そして左から右

方向への表記をうまく処理してくれたからです。完璧というわけではありませんが、実際のところ多くの高価な商用製品よりも、はるかに良かったのです ”

– http://tech.groups.yahoo.com/group/OmegaT/message/19344

ダブリン計算言語学研究セミナー

Page 9: OmegaT プレゼンテーション 2012

OmegaT

プラグインライセンスの互換性

アーキテクチャ

スタブ

利用可能なプラグイン

トークナイザー

スクリプト

Page 10: OmegaT プレゼンテーション 2012

2012年6月

プラグイン

ライセンスの互換性

• 主として法的な理由により、プラグインはOmegaT 本体と別個に配布されている– OmegaT のライセンスは、ライブラリに JAXB を含むた

め、厳格な GPL v2– 多くのプラグインは Apache コンポーネントを利用して

いる– Apache ライセンスは GPL v2 と矛盾する– Apache ライセンスは GPL v3 と矛盾しない– OmegaT のごく一部(スタブ )は GPL v3 で再ライセン

スされている• これが可能なのは、OmegaT のソースコードに次のように

書かれているからライセンスはバージョン 2 か、あるいは(必要なら)それよりも後のバージョンを適用

ダブリン計算言語学研究セミナー

Page 11: OmegaT プレゼンテーション 2012

2012年6月

プラグイン

ライセンスとの互換性

• GPL v3 と矛盾しないライセンスなら、プラグインで利用可能– Apache ライセンス– 修正 BSD ライセンス

• 三条項 BSD ライセンス

– …– http://www.gnu.org/licenses/license-list.ja.html

#GPLCompatibleLicenses

• GPL と相容れない一部のライセンス(たとえば BSD)は、他のソフトウェアに同梱されるときに、ソースコードの配布を必要としない– 寛容な非コピーレフト(Permissive non-copyleft)

ダブリン計算言語学研究セミナー

Page 12: OmegaT プレゼンテーション 2012

2012年6月

プラグイン

アーキテクチャ

• 外部プラグインは実行時に plugins フォルダーから読み込まれる

• プラグインは主にインターフェイスを介してOmegaT と連携する。これらのインターフェイスを参照するために、スタブ が必要になる

• スタブ は「空」のソースコードで、必要なオブジェクトとメソッドの宣言のみを含む

• 実行時に、これらの空のメソッドは実物と置き換えられる

• プラグインの作り方は、OmegaT のソースのdocs_devel フォルダに文書化されている– サンプル プラグイン プロジェクト一式を含む

ダブリン計算言語学研究セミナー

Page 13: OmegaT プレゼンテーション 2012

2012年6月

プラグイン

利用可能なプラグイン

• OmegaT 製– LanguageTool

• 言語構文チェック

– トークナイザー• 参考訳文と用語集の認識精度向上

– スクリプト• OmegaT 内でスクリプトの実行を可能に

• サードパーティー製– Okapi

• ファイルフィルターの追加• http://www.opentag.com/okapi/wiki/index.php?title=Okapi_Filters

_Plugin_for_OmegaT

– Glossum• オンライン用語集• http://www.glossum.com/omegat

ダブリン計算言語学研究セミナー

Page 14: OmegaT プレゼンテーション 2012

2012年6月

プラグイン

トークナイザー

• トークナイザーは Lucene (Apache) を使って開発

• 24 種類の言語で利用可能– Lucene 2.9.0 に基づく

• OmegaT はこれを3つの目的で使用– トークン(字句)の解析

• 綴り確認の性能改善• CJK 言語における “ 単語” 認識の性能改善

– 参考訳文からストップワード を排除– 見出語(lemmas)の解析

• 参考訳文と用語集の両方で使用• 一部の言語では利用できない

– チェコ語• ストップワードのみ

– 中国語、日本語、韓国語(CJK )• 字句解析のみ

ダブリン計算言語学研究セミナー

Page 15: OmegaT プレゼンテーション 2012

2012年6月

プラグイン

スクリプト

• OmegaT のメモリ上に保持されているデータを操作できる• グラフィカルなインターフェイスや対話式の機能を作成でき

る• 初期状態で多くのスクリプト言語を使用可能

• NetRexx

• XSLT

• Groovy

• JavaScript

– 他のスクリプト言語も簡単に追加できる

• Jacl (Tcl/Tk)

• Jython (Python)

• サンプルスクリプトを同梱– 検索と置換

– スクリプトによる GUI 作成

– …

ダブリン計算言語学研究セミナー

Page 16: OmegaT プレゼンテーション 2012

OmegaT

対応可能なファイル形式ネイティブ形式

Okapi プラグインカスタム コーディング

Okapi Rainbow

Page 17: OmegaT プレゼンテーション 2012

2012年6月

対応可能なファイル形式

ネイティブ形式

• 文書用ファイル形式– プレーンテキスト(ユニコードを含む、Java が対応する全エンコー

ディング)– (X)HTML(Web サイトのディレクトリ構成をそのまま保持できる)– StarOffice、OpenOffice.org、LibreOffice および OpenDocument– Open XML(Microsoft 2007/2010)– ヘルプとマニュアル– HTML Help コンパイラ– LaTeX– DokuWiki– CopyFlow Gold for QuarkXPress– DocBook– Typo3 LocManager– Iceni Infix (PDF)– XLIFF source = target– TXML Wordfast source = target

ダブリン計算言語学研究セミナー

Page 18: OmegaT プレゼンテーション 2012

2012年6月

対応可能なファイル形式

ネイティブ形式

• 地域化用ファイル形式– Android リソース– Java リソースバンドル– 「キー=値」 形式ファイル– Mozilla DTD– Windows リソース(RC)– WiX ローカリゼーション– ResX– Flash の XML 出力– Windows 用 Camtasia– Magento CE locale CSV – PO(Portable Object File)(既存の翻訳も取り込み)– SubRip 字幕形式(SRT)– SVG 画像

ダブリン計算言語学研究セミナー

Page 19: OmegaT プレゼンテーション 2012

2012年6月

対応可能なファイル形式Okapi プラグイン

• InDesign IDML• JSON• Qt TS• Trados TagEditor TTX (既存の翻訳も取り込み)• Transifex プロジェクト• Wordfast Pro TXML(ベータ版)(既存の翻訳も取り

込み)

ダブリン計算言語学研究セミナー

Page 20: OmegaT プレゼンテーション 2012

2012年6月

対応可能なファイル形式

カスタム コーディング

• ソースコードを少し変更するだけでファ

イルフィルターを作成できる

• 手順は文書化済み

– http://www.omegat.org/en/howtos/new_filter.html

• 特定の XML フィルターを作るのがあま

りにも簡単なので、汎用の XML フィル

ターは存在しない

ダブリン計算言語学研究セミナー

Page 21: OmegaT プレゼンテーション 2012

2012年6月

対応可能なファイル形式Okapi Rainbow

• Okapi Rainbow は OmegaT 用のプロジェクトファイルを生成できる。さらに…– ファイルフィルターの追加

• 追加できるファイル形式

– MIF (Adobe FrameMaker)

• 形式によっては既存の翻訳も取り込む

• 汎用の XML フィルター

• タグによる翻訳用テキスト指定

– ITS (Internationalization Tag Set)

– 機械翻訳による事前翻訳

ダブリン計算言語学研究セミナー

Page 22: OmegaT プレゼンテーション 2012

OmegaT

他の翻訳支援ソフトとの互換性翻訳メモリ

二ヶ国語文書

用語集

Page 23: OmegaT プレゼンテーション 2012

2012年6月

他の翻訳支援ソフトとの互換性

• 翻訳メモリ– 翻訳メモリの個数は無制限– TMX バージョン 1.4b レベル 1 および 2 に対応

• 取り込み• 出力

– テキストの整形情報は、書式用プレースホルダーとして保持される

• 二ヶ国語文書(unclean documents とも呼ばれる)– PO– XLIFF(Rainbow 経由で既存の翻訳も取り込める)– TTX(Okapi プラグイン 経由)– TXML(Okapi プラグイン 経由で既存の翻訳も取り込める)

• 用語集– 用語集の個数は無制限– 用語集は、複数のファイル形式に対応

• TSV(タブ区切り)• CSV(カンマ区切り)• TBX (TermBase eXchange)

– 書き込み可能な用語集は一種類だけ• TSV 形式のみ

ダブリン計算言語学研究セミナー

Page 24: OmegaT プレゼンテーション 2012

OmegaT

OmegaT プロジェクト沿革史

スタッフ

理念

普及率

資金調達

Page 25: OmegaT プレゼンテーション 2012

2012年6月

OmegaT プロジェクト沿革史

• 開発を開始– 2000年 C++ で書かれた

• 最初の一般公開– 2001年 Java で書かれた

• 文単位の分節化– 2005年 OmegaT 1.6 から

• 綴り確認機能– 2008年 OmegaT 1.8 から

• 参考訳文のオンデマンド照合による、プロジェクトの「瞬間」読み込み– 2009年 OmegaT 2.0 から

• 最初のプラグイン– 2009年 OmegaT 2.0 から

• 複数訳文が可能に– 2011年 OmegaT 2.5 から

• チームプロジェクト– 2012年 OmegaT 2.6 から

ダブリン計算言語学研究セミナー

Page 26: OmegaT プレゼンテーション 2012

2012年6月

OmegaT プロジェクトスタッフ

• 最初の開発者– Keith Godfrey(アメリカ/イギリス)

• プロジェクト責任者兼ウェブサイト管理者– Marc Prior(ドイツ)

• 過去の開発担当– Maxym Mykhalchuk(イタリア/ウクライナ)– Henry Pijffers(オランダ)

• 現在の開発チーム– 開発担当

• Didier Briel(フランス)

– 開発リーダー• Alex Buloichik(ベラルーシ)

• 地域化担当兼ユーザーグループオーナー– Jean-Christophe Helary(日本)

• 文書化担当– Vito Smolej(ドイツ)

ダブリン計算言語学研究セミナー

Page 27: OmegaT プレゼンテーション 2012

2012年6月

OmegaT プロジェクト理念

• OmegaT は非公式の組織– 法律的な組織の実体を持たない

• ユーザーからの協力を求めている– プログラミングのスキルは要求されない

• 翻訳

• チュートリアルビデオの作成

• 地域の翻訳者コミュニティに対する啓蒙活動

• …

ダブリン計算言語学研究セミナー

Page 28: OmegaT プレゼンテーション 2012

2012年6月

OmegaT プロジェクト普及率

• 正確な統計は存在せず– OmegaT は使用状況を追跡していないため

• 2010 年の調査によると– Wordfast、Deja Vu、MemoQ ユーザーの

1/3、また最も利用されている Trados ユーザーの 1/8 が OmegaT を使用している(出典: Wikipedia)

– http://www.translationtribulations.com/2010/07/results-of-june-translation-tools.html

ダブリン計算言語学研究セミナー

Page 29: OmegaT プレゼンテーション 2012

2012年6月

OmegaT プロジェクト普及率: ダウンロード数

• Sourceforge 利用開始以来のダウンロード数

• Java Webstart の利用は加算されていないダブリン計算言語学研究セミナー

Page 30: OmegaT プレゼンテーション 2012

2012年6月

OmegaT プロジェクト資金調達

• OmegaT プロジェクトにおける作業のほとんどがボランティアによる

• 寄付は歓迎– OmegaT プロジェクトはそれを特定の目的に使

用する• 開発リーダーのための Mac 購入予算

• その他開発経費

• 開発してほしい機能があれば、そのスポンサーになる方法もある– 開発チームは、機能仕様とその開発費について

スポンサーと打ち合わせをする

ダブリン計算言語学研究セミナー

Page 31: OmegaT プレゼンテーション 2012

OmegaT

入手方法ダウンロード/Java Webstart

ソースコード

Page 32: OmegaT プレゼンテーション 2012

2012年6月

入手方法

ダウンロード/Java Webstart

• OmegaT は2つのバージョンが提供されている– 通常版 (Standard)

• 取扱説明書完備(少なくとも英語版で)

– 最新版 (Latest)• 新機能の取扱説明は無し

• 新機能は安定性にやや欠ける

• 4つのプラットフォーム向け– Windows– Linux– 汎用(Java アーカイブのみ)– Mac

• Java Runtime Environment 付きと JRE 無し

• さらに、OmegaT は Java Webstart からも使える– インストール不要(ユーザーの観点から)– アップデート版は自動更新– プラグインは使えない

• 全バージョンが omegat.org からダウンロード可能

• プラグインは別のウェブサイトにある– https://sourceforge.net/projects/omegat-plugins/

ダブリン計算言語学研究セミナー

Page 33: OmegaT プレゼンテーション 2012

2012年6月

入手方法

ソースコード

• 全リリース分のソースコードが提供されている

• /trunk ソースを公開– Subversion

• svn co https://omegat.svn.sourceforge.net/svnroot/omegat/trunk omegat

– Tarball• http://omegat.svn.sourceforge.net/viewvc/omegat/?v

iew=tar

• プロトタイプはときどき Git で公開– http://omegat.git.sourceforge.net/git/gitweb.cgi

• プラグインの /trunk ソースは Git で公開– http://omegat-plugins.git.sourceforge.net/git/gitweb-index.cgi

ダブリン計算言語学研究セミナー

Page 34: OmegaT プレゼンテーション 2012

OmegaT

サポートユーザーおよび開発者向けサポート

バグおよび機能拡張トラッカー

コントリビューション

Page 35: OmegaT プレゼンテーション 2012

2012年6月

サポート

ユーザーおよび開発者向けサポート

• ユーザー向けメーリングリスト

– http://groups.yahoo.com/group/omegat– 1750 メンバー(訳注:2012/10 時点で 1800 人超)– 24 時間 365 日活動– 英語中心だが、他の言語(日本語、ロシア語、ドイツ語、

フランス語等)でもサポートを受けられる– 母国語での投稿を推奨

• 開発者およびパワーユーザー向けメーリングリスト

– https://sourceforge.net/mailarchive/forum.php?forum_name=omegat-development

– 125 メンバー– 英語– 技術的な話題

ダブリン計算言語学研究セミナー

Page 36: OmegaT プレゼンテーション 2012

2012年6月

サポート

バグおよび機能拡張トラッカー

• バグレポート– https://sourceforge.net/tracker/?group_id=68

187&atid=520347– 2002 年 11 月以来、500 件のバグが報告– 2012/6/13 時点で 47 件がオープン– オープンで最古は、2006 年 7 月のバグ

• 機能拡張リクエスト(RFE)– https://sourceforge.net/tracker/?group_id=68

187&atid=520350– 2002 年 11 月以来、795 件のリクエストが登録– 2012/6/13 時点で 340 件がオープン– オープンで最古は、2004 年 6 月のリクエスト

ダブリン計算言語学研究セミナー

Page 37: OmegaT プレゼンテーション 2012

2012年6月

サポート

コントリビューション

• 実際にコントリビューションを送る前に、それについて話し合う機会を持つと有益– 機能拡張リクエストを送る– ユーザー向けメーリングリストで話し合う– 開発者向けメーリングリストで話し合う– 開発担当に非公開で相談する

• Subversion へのコミット権限を持つのはコア開発者だけ

• コントリビューションは開発担当へ送る

• 受け付けるもの– Zip 圧縮ファイル

• パッチ

• 変更した全ソースファイル

• 必要であればテストデータも

– パッチの目的の説明

ダブリン計算言語学研究セミナー