5
22 PFU Tech. Rev., 23, 2,pp.22-26 (11,2012) 中国市場に対応した帳票 OCR ソフトウェア 「DynaEye EX Chinese Edition」 "DynaEye EX Chinese Edition", Form Processing OCR Software that Meets Chinese Market Needs 稲見真樹 * Masaki Inami 深沢克夫 * Yoshio Fukasawa 森岡卓哉 * Takuya Morioka * ソリューション&ソフトウェアグループ ECM ソフトウェア事業部 商品企画開発部 1 まえがき 中国市場において,PFU の業務用スキャナ「fi シリー ズ」はトップシェア 注1) を獲得しており,中国 4 大国有 銀行をはじめ,多くの金融機関に採用されている.中国 の経済成長に伴い取り扱う帳票は著しく増加しており, PFU のスキャナ出荷台数も年々増加しているが,これ に付随して,紙帳票のデータをコンピュータに入力する 際の効率向上がより重要となっている. この状況に対応するため,PFU は手書き帳票 OCR ソフトウェアの日本語版「DynaEye EX」をベースと して中国市場向け帳票 OCR ソフトウェア「DynaEye EX Chinese Edition」(以降,本製品)を開発し, 2012 年 2 月に中国市場向けに出荷を開始した. 注1) 中国トップシェア:IDC 2009 年度ドキュメント・スキャナ 市場調査による. 中国語の手書き文字,活字の読み取りに対応した帳票 OCR ソフトウェア「DynaEye EX Chinese Edition」 を開発した.中国市場で実績のある高精度の手書き中国語 OCR 機能の搭載,お客様の業務に合わせた OCR シス テムの構築を可能にする DynaEye コンポーネントキットなどの特長を持っている.日本市場での豊富な実績を 持つ帳票 OCR ソフトウェアを中国市場に提供することで,お客様の紙文書電子化を強力に支援し,中国の社会や お客様のビジネスに貢献する. We developed "DynaEye EX Chinese Edition", form processing OCR software that recognizes handwritten Chinese and printed Chinese forms. "DynaEye EX Chinese Edition" includes features such as the proven OCR function that recognizes Chinese handwritten forms with a high degree of accuracy in the Chinese market and the DynaEye component kits that enable the creation of a custom-made OCR application that meets the customer's business needs. By providing form processing OCR software whose performance has been adequately proved in the Japanese market, PFU strongly supports the computerization of customer's paper documents and contributes to society and its customer's business in China. 日本でデータ入力業務の効率向上に貢献してきた帳票 OCR ソフトウェア「DynaEye EX」を中国に提供す ることで,中国での紙帳票の利活用の効率向上とお客様 のビジネス拡大に貢献する. 本論文では,本製品の開発における課題とその対応, 今後の中国市場での利用拡大に向けた課題について述べ る. 2 開発の背景と狙い 2.1 開発の背景 (1) 中国市場での帳票 OCR ソフトウェアの適用 中国では経済成長に伴う商取引の増加により,紙帳票 の IT による利活用やデータ入力業務を効率よく進める ため,イメージスキャナの活用が急速に進んでいる.紙

中国市場に対応した帳票OCRソフトウェア「DynaEye EX …...24 中国市場に対応した帳票OCRソフトウェア「DynaEye EX Chinese Edition」 PFU Tech. Rev.,

  • Upload
    others

  • View
    2

  • Download
    0

Embed Size (px)

Citation preview

  • 22 PFU Tech. Rev., 23, 2,pp.22-26 (11,2012)

    中国市場に対応した帳票 OCR ソフトウェア「DynaEye EX Chinese Edition」

    "DynaEye EX Chinese Edition", Form Processing OCR Software that Meets Chinese Market Needs

    稲見真樹 *Masaki Inami

    深沢克夫 *Yoshio Fukasawa

    森岡卓哉 *Takuya Morioka

    * ソリューション&ソフトウェアグループ ECMソフトウェア事業部 商品企画開発部

    1 まえがき中国市場において,PFU の業務用スキャナ「fi シリー

    ズ」はトップシェア注1)を獲得しており,中国 4 大国有

    銀行をはじめ,多くの金融機関に採用されている.中国

    の経済成長に伴い取り扱う帳票は著しく増加しており,

    PFU のスキャナ出荷台数も年々増加しているが,これ

    に付随して,紙帳票のデータをコンピュータに入力する

    際の効率向上がより重要となっている.

    この状況に対応するため,PFU は手書き帳票 OCR

    ソフトウェアの日本語版「DynaEye EX」をベースと

    して中国市場向け帳票 OCR ソフトウェア「DynaEye

    EX Chinese Edition」(以降,本製品)を開発し,

    2012 年 2 月に中国市場向けに出荷を開始した.

    注1)中国トップシェア:IDC 2009 年度ドキュメント・スキャナ市場調査による.

    中国語の手書き文字,活字の読み取りに対応した帳票 OCR ソフトウェア「DynaEye EX Chinese Edition」

    を開発した.中国市場で実績のある高精度の手書き中国語 OCR 機能の搭載,お客様の業務に合わせた OCR シス

    テムの構築を可能にする DynaEye コンポーネントキットなどの特長を持っている.日本市場での豊富な実績を

    持つ帳票 OCR ソフトウェアを中国市場に提供することで,お客様の紙文書電子化を強力に支援し,中国の社会や

    お客様のビジネスに貢献する.

    We developed "DynaEye EX Chinese Edition", form processing OCR software that recognizes

    handwritten Chinese and printed Chinese forms. "DynaEye EX Chinese Edition" includes

    features such as the proven OCR function that recognizes Chinese handwritten forms with a

    high degree of accuracy in the Chinese market and the DynaEye component kits that enable

    the creation of a custom-made OCR application that meets the customer's business needs.

    By providing form processing OCR software whose performance has been adequately proved

    in the Japanese market, PFU strongly supports the computerization of customer's paper

    documents and contributes to society and its customer's business in China.

    日本でデータ入力業務の効率向上に貢献してきた帳票

    OCR ソフトウェア「DynaEye EX」を中国に提供す

    ることで,中国での紙帳票の利活用の効率向上とお客様

    のビジネス拡大に貢献する.

    本論文では,本製品の開発における課題とその対応,

    今後の中国市場での利用拡大に向けた課題について述べ

    る.

    2 開発の背景と狙い2.1 開発の背景

    (1) 中国市場での帳票 OCR ソフトウェアの適用

    中国では経済成長に伴う商取引の増加により,紙帳票

    の IT による利活用やデータ入力業務を効率よく進める

    ため,イメージスキャナの活用が急速に進んでいる.紙

  • PFU Tech. Rev., 23, 2, (11,2012) 23

    中国市場に対応した帳票OCRソフトウェア「DynaEyeEXChineseEdition」

    帳票のイメージデータを活用するにはインデックス付け

    や文字データの抽出が欠かせないため,ここで OCR の

    活用が鍵となる.

    富士通グループではこれまで,富士通研究開発中心有

    限公司注2)が開発した OCR エンジンを提案し,中国 4

    大国有銀行や国勢調査等の各種統計調査でのデータ入力

    を支援してきた参1).

    (2) 汎用的な帳票 OCR ソフトウェア提供の期待

    前述のとおり,富士通グループでは大規模プロジェ

    クト向けに OCR システムを提案してきたが,中国現地

    の販社やシステムインテグレーターからは中小規模のプ

    ロジェクトに対しても,規模に応じて適用可能な,汎

    用的な帳票 OCR ソフトウェア提供の要求が強まってい

    る.特にシステムインテグレーターがユーザーのシス

    テム構築に活用できるソフトウェア開発キット(以降,

    SDK.Software Development Kit の略)としての

    帳票 OCR ソフトウェアが求められている.

    2.2 本製品の狙い日本市場でデータ入力業務の生産性向上に貢献してき

    た帳票OCRソフトウェア「DynaEye EX」をベースに,

    お客様の紙文書電子化を強力に支援することを狙いとし

    て,以下の機能を備えた中国市場向け製品を企画した.

    (1) 多種多様な帳票の読み取りへの対応

    OCR 用に帳票レイアウトを変更せず,お客様が利用

    されている既存帳票のまま読み取りできること.また,

    多種多様な帳票の読み取りに対応できること.

    (2) システム構築需要に応える SDK

    これまでの日本市場のシステムインテグレーターの

    システム構築需要に応えてきた API(Application

    Programming Interface)と同等の機能を提供す

    ることにより,中国市場のシステム構築需要に応える

    SDK とする.

    3 本製品開発の課題と解決策3.1 DynaEye とは

    (1) 日本語版 DynaEye

    日本語版 DynaEye はスキャナ入力,帳票認識,確

    認修正,認識結果出力などの帳票 OCR に必要な機能

    をワンパッケージにした Windows®注3)用ソフトウェ

    注2)富士通研究開発中心有限公司:董事兼総経理 直井 聡,本社 中国・北京市.

    注3)Windows は,米国 Microsoft Corporation の米国,日本およびその他の国における登録商標または商標である.

    アである参2).1997 年に初版を出荷して以来 15 年の

    歴史を持ち,お客様のニーズや市場の要求に応えて幾

    多の機能強化を行ってきた信頼ある OCR 製品である.

    現在の最新版は DynaEye EX V3.0 となっている.

    DynaEye の特長を示す.

    1) 高精度の文字認識

    日本語版DynaEyeには富士通とPFUの長年に渡

    る OCR の技術とノウハウが蓄積されており,特に手

    書き文字認識に強いという特長がある.

    また,手書き文字認識は複数の認識ロジックを組み

    合わせて精度を向上させている.そのため DynaEye

    は手書きの数字から漢字まで高い認識率を持つ.

    さらに,活字文字に対しても高い認識率を持ってい

    る.

    2) 多様な帳票への対応

    日本語版 DynaEye は,あらかじめユーザーが登

    録した未記入の帳票画像をテンプレートとして,入力

    帳票の認識処理を行う.一般的な帳票 OCR では,記

    入する箇所が長方形やはしご状の文字枠のみ,1 桁ご

    との枠幅が一定である,などの制限があり読める帳票

    が限定される.しかし DynaEye では帳票画像内の

    記入する箇所そのものを記憶することで,読み取り時

    に帳票から記入箇所の文字だけを分離して文字認識を

    行う.これにより枠幅が一定でないものや,さらに文

    字枠自体が無いものなど,多様なデザインの帳票が読

    み取り可能である.

    また読み取り定義の際も,文字枠の位置やサイズを

    厳密に定義する必要が無いため,ユーザーの負担が少

    ない.

    3) API の同梱

    日本語版 DynaEye は以下の 3 種類の利用方法を

    提供している.

    ① 付属アプリケーション(標準アプリケーション)

    を使用

    ② ソフトウェア部品(EXE 形式)の呼び出し

    ③ ソフトウェア部品(ActiveX 形式)の呼び出し

    これによりソフトウェア開発を行わない小規模・低

    予算の立ち上げから,大量入力に対応した高度な専用

    システムの構築まで,お客様の用途に合わせて幅広く

    カバーできる.

    日本語版 DynaEye はこれまでに自治体,医療・

    検査,製造業,文教,流通,金融・保険業,農林水産

    業など様々なお客様のデータ入力に活用いただいてい

    る参3).活用事例の多くが DynaEye の API を使用し

  • 24

    中国市場に対応した帳票OCRソフトウェア「DynaEyeEXChineseEdition」

    PFU Tech. Rev., 23, 2, (11,2012)

    お客様システムに OCR の機能を組み込んでおり,紙

    帳票からのデータ入力機能を付加することで,アプリ

    ケーションの利用範囲を広げ,お客様への訴求価値を

    高めることを可能にしている.

    (2) 中国向け製品について

    中国語版 DynaEye の機能構成を図 - 1に示す.また製品構成を表 - 1に示す.3 種類の利用方法がある日本語版 DynaEye と異なり,ActiveX 部品による API

    を主体としたSDK商品とした.ActiveX部品の構成を

    図 - 2に示す.そのため日本語版にある EXE 形式のソフトウェア部品は同梱しない.標準アプリケーションは

    書式定義の作成と確認のための開発環境という位置づけ

    で日本語版からカスタマイズを行った.書式定義の使い

    勝手や ActiveX 部品のインターフェースなどは日本語

    版 DynaEye とほぼ同一であり,日本語版 DynaEye

    を使ったことがあれば容易に中国語版 DynaEye を使

    用できる.また日本語版 DynaEye を使用して専用ア

    プリケーションを構築していた日本のシステムインテグ

    レーターは,中国で容易にシステム構築できる.作成し

    たアプリケーションの画面例を図 - 3に示す.中国語の認識対象は,手書きがGBK一級漢字(3,755

    字種)と二級漢字の一部(638 字種),活字が GBK 一

    級漢字である.中国での利用状況も考え,簡体字読み取

    ◆図 -1 DynaEyeEXChineseEditionの機能構成◆

    (Fig.1-DynaEyeEXChineseEditionfunctional

    configuration)

    ・手書きANS・活字ANS・手書き簡体字・活字簡体字・手書きマーク・個人知識処理・帳票識別処理・ドロップアウトカラー帳票対応・24ビットカラー画像対応・バーコード

    帳票認識機能

    ・USBドングルによるプロテクション

    コピープロテクト

    ・ActiveX 部品 - 文字認識コントロール - 認識結果管理コントロール - 文字修正コントロール - マーク修正コントロール - イメージ表示コントロール - 認識結果変換コントロール

    アプリケーション・プログラム I/F(API)

    ・書式定義・イメージデータ管理機能・読み取り定義機能・帳票認識確認機能

    DynaEye 定義アプリケーション

    ◆図 -2 ActiveX部品の構成◆

    (Fig.2-ActiveXcomponentconfiguration)

    スキャナ入力

    帳票認識

    修正画面

    データ出力

    定義情報にしたがってイメージデータを文字認識する.

    認識結果の表示・修正を行う.

    認識結果をCSV形式,XML形式等に変換して出力する.

    “21”,”10”,”2012”,”00012345678”,”株式会社PFU ”, ...CSVファイル

    Scanner Control SDK 等

    認識結果変換コントロール

    イメージ表示コントロール

    マーク修正コントロール

    文字修正コントロール

    認識結果管理コントロール

    文字認識コントロール

    ◆図 -3 ActiveX部品による画面例◆

    (Fig.3-ScreenshotusingtheActiveXcomponent)

    認識注意(リジェクト)文字として赤色表示された例

    ◆表 -1 DynaEyeEXChineseEditionの製品構成◆

    製品名 概要 構成

    DynaEyeEXChineseEditionV1.0MediaKit

    SDK/Runtime(ANS)/Runtime のインストールメディア

    CD-ROM

    DynaEyeEXChineseEditionV1.0SDK

    OCR 定義情報作成環境を含む開発用製品

    ライセンス+USBドングル

    DynaEyeEXChineseEditionV1.0Runtime(ANS)

    英数認識・マークおよびバーコード認識のみ(ランタイム製品)

    ライセンス+USBドングル

    DynaEyeEXChineseEditionV1.0Runtime

    Runtime(ANS)に加えて簡体字認識が可能(ランタイム製品)

    ライセンス+USBドングル

  • PFU Tech. Rev., 23, 2, (11,2012) 25

    中国市場に対応した帳票OCRソフトウェア「DynaEyeEXChineseEdition」

    りを提供しない安価なライセンスも用意した.すべての

    ライセンスにはコピープロテクトのためのハードウェア

    キー(USB ドングル)を同梱しており,これを PC に

    接続しない状態では 30 日間の評価版として動作する.

    本製品の主な仕様を表 - 2に示す.

    3.2 中国市場向け製品とするための課題と解決策(1) 中国市場向けの製品構成

    中国ではシステムインテグレーターの力が強く,

    2012 年時点での帳票 OCR の活用は,ほとんどがシス

    テムインテグレーターによる個別開発である.中国国

    内の OCR ベンダーもソリューション向けの製品を提供

    しており,帳票 OCR のパッケージソフトウェアをユー

    ザーが購入して使う市場は小さいと考えられる.中国で

    の利用拡大には中国国内のシステムインテグレーターに

    DynaEye を採用してもらうことが必須であるため,中

    国語版 DynaEye は SDK 商品として企画した.

    (2) 中国語 OCR エンジンの組み込み

    手書き中国語 OCR エンジンには,富士通研究所の中

    国拠点である富士通研究開発中心有限公司が開発したエ

    ンジンを採用した.この OCR エンジンは 2010 年に

    中国で行われた国勢調査に採用され,約 7 億 4,000 万

    枚にもおよぶ手書き用紙の調査記録を正確で,しかも迅

    速に認識するという要求に応えた実績のある,優れた

    OCR エンジンである.また活字中国語 OCR エンジン

    には,ScanSnap に搭載されて既に中国国内で実績の

    ある OCR エンジンを採用した.

    採用した手書き中国語 OCR エンジンは以前までは中

    国での個別商談対応に使用していたものである.しかし,

    今後汎用パッケージ製品に組み込んで使用するには,シ

    ステムインテグレーターが導入しやすい形となるよう,

    機能を追加する必要があると考えた.

    手書き中国語 OCR エンジンに追加した機能としてリ

    ジェクト機能が挙げられる.一般的に乱雑に書かれた文

    字は誤読する可能性があるため,認識された手書き文字

    データは人の目による確認作業や修正作業が必要とされ

    る.しかし,全ての文字を入念に確認するのは効率が悪

    い.そこで,うまく認識できなかった文字はリジェクト

    という状態とする機能を手書き中国語 OCR エンジンに

    追加し,修正画面では認識注意文字として強調されるよ

    うにした.これにより,データの確認・修正作業が効率

    化できる.

    改良したのは OCR エンジン側だけではない.新し

    い OCR エンジンを DynaEye に搭載するに当たり,

    DynaEye 側に汎用の OCR エンジン接続インター

    フェースを新設した.これにより今回のエンジン以外の

    OCR エンジンを容易に接続できるようになったため,

    将来的に簡体字以外,たとえば繁体字への対応を行う場

    合でも,OCR エンジンを容易に交換できる.

    (3) OCR 専門用語の翻訳

    画面のメッセージやマニュアル,ヘルプに使っている

    専門用語の誤訳は製品に対する影響範囲が大きいため,

    翻訳は慎重に行う必要がある.しかし専門用語は決まっ

    た翻訳が無いものが多く,また「アンカーパターン」な

    どの当社独自の用語には手本とする翻訳例がない.これ

    らを機械的に訳すと理解できない用語になってしまうた

    め,用語が示す意味まで踏み込んで翻訳する必要がある.

    日本語と似ているから問題ないという安易な判断は危険

    である.たとえば前記「アンカーパターン」を単純に翻

    訳すると「固定标记」となるが,DynaEye では位置決

    めに使用する帳票上の領域のことを指しており,この翻

    ◆表 -2 本製品の主な仕様◆

    認識対象

    文字 手書き数字,英字,記号手書き簡体字(GBK一級漢字:3,755字種,GBK二級漢字:638字種)手書きマーク活字数字,英字,記号(OCR-B フォント,黒体,宋体)活字簡体字(GBK一級漢字:3,755字種)

    バーコード NW-7(Codabar),CODE39,CODE128,ITF,EAN8,EAN13

    修正画面機能 全面/フィールド/切り出しイメージ表示候補文字表示

    出力データ形式 CSV形式,テキスト形式,XML形式

    その他の機能 ユーザー辞書による知識処理データチェック(数値演算,桁数,日付等),データ編集

    API 提供機能(ActiveX 部品)

    文字認識修正画面構築(文字修正,マーク修正,イメージ表示)認識結果変換

    開発環境 VisualBasic®※12005/2008/2010VisualC#®※12008/2010

    対応OS※2 WindowsXPProfessionalWindowsVista®※1Business/Enterprise/UltimateWindows7Professional/Enterprise/Ultimate

    ※1 WindowsVista,VisualBasic,およびVisualC# は,米国MicrosoftCorporation の米国,日本およびその他の国における登録商標または商標である.

    ※2 いずれも32ビット簡体字中国語版

  • 26

    中国市場に対応した帳票OCRソフトウェア「DynaEyeEXChineseEdition」

    PFU Tech. Rev., 23, 2, (11,2012)

    訳(「固定のためのマーク」)では意味が通らない.「印

    刷着的文字图形」と翻訳することが妥当である.

    そのため,翻訳に当たっては複数のチェックを実施し

    て誤訳を排除した.具体的には,DynaEye の中国語版

    開発を担当した部門が対訳表を作成し,これを日本側の

    品質保証部門とソフトウェア開発部門が対面レビューを

    実施して意味も含めた用語のチェックを行った.この際

    日本側は機械翻訳も併用したが,これは翻訳時の単純ミ

    ス,たとえば「バイト」と「ビット」の誤りなどを防ぐ

    ことに効果があった.

    さらに,プロトタイプができた段階で第三者評価を

    行った.具体的には中国語版開発と別部署の人員(対

    訳表の翻訳に関与しない)により,中国語版 DynaEye

    を使用しながら画面メッセージやヘルプの翻訳の妥当性

    のチェックを実施した.この時点で指摘された不具合も

    多く,翻訳の品質を上げる効果があった.

    (4) コピープロテクト

    中国で販売されるソフトウェア製品には不正コピー対

    策のためにコピープロテクト機能が組み込まれているの

    が一般的である.そこで中国語版 DynaEye ではハー

    ドウェアキー(ドングル)によるコピープロテクトを実

    装した.これにより,実行時に USB ポートにドングル

    が接続されていなければソフトウェアは動作しない.

    本製品ではドングルを導入したが,ドングル以外の対

    策として一般的なものはアクティベーションである.ア

    クティベーション方式ではソフトウェアがインストール

    されたコンピュータ情報とライセンスを紐付けて,イン

    ターネット上のサーバで管理することで不正コピーを防

    止する.しかし,この方法を導入するためにはインター

    ネット環境への接続が必要である.DynaEye は個人情

    報や売上げ金額などの秘密情報が含まれる帳票処理に使

    用されることが多く,そのためセキュリティを考慮して

    インターネット環境から隔離されていることが少なくな

    い.

    また,アクティベーションは使用コンピュータその

    ものを登録するため,コンピュータが故障した場合にサ

    ポートとのやり取りが必須である.そのため運用再開ま

    で時間がかかる.

    一方,ドングルであればライセンス管理をしつつイ

    ンターネット環境に接続していないコンピュータでも中

    国語版 DynaEye を使用できる.さらに,コンピュー

    タが故障したとしても別のコンピュータに中国語版

    DynaEye をインストールしてドングルを接続するだけ

    で,すぐに運用を再開できるというメリットもあった.

    これらが本製品でドングルを導入した理由である.

    4 むすび中国市場向け帳票 OCR ソフトウェアの開発におい

    て,中国市場の特性に最適化した製品開発を行い,各課

    題について解決策を施してきた.その結果,システム開

    発に活用可能な汎用的な帳票 OCR ソフトウェア SDK

    を中国市場向けに出荷できた.

    これにより,スキャナと OCR を組み合わせた提案が

    可能となり,中国のお客様に対してより幅広く柔軟な提

    案を行うことができるようになった.

    同じ漢字文化圏とはいえ,文化や商習慣が異なり,広

    大な国土を持つ中国には日本にない様々な様式の帳票が

    存在する.記入される文字が多様である点や帳票の運用

    方法の違いもあり,市場要求も日本とは異なる点がある.

    たとえば,スタンプを多用することから,スタンプと重

    なった文字の読み取りへの対応が要望されている.今後

    は中国の幅広い市場要求を満足させるべく,より多種多

    様な帳票への対応強化を図る.これにより,日本市場と

    同様にトップシェア注4)の帳票 OCR ソフトウェアを目

    指すとともに,中国での紙帳票の活用を推進し,中国の

    社会やお客様のビジネスに貢献していく.

    参考文献参1)富士通プレスリリース 中国国家統計局様,第 6 次国勢調査に富士通グループのスキャ

    ナと OCR ソフトウェアを採用

    http://pr.fujitsu.com/jp/news/2011/06/29.html

    参2)ソフトウェア帳票 OCR「DynaEye EX(ダイナアイイーエックス)」ホームページ

    http://www.pfu.fujitsu.com/dynaeye/

    参3)糸山,香西,深沢:受領書 OCR システム~医薬品卸業での業務効率化を DynaEye で実現~,PFU Tech.Rev.,21,1,pp.25- 32(2010).

    注4)日本市場トップシェア:帳票 OCR ソフトにおいて,JEITA(2010 年度)の集計に基づき,PFU にて推計.