20
OCRで業務効率化も、データ活用も文字認識はここまできた! Special Feature vol. 130

vol. - 凸版印刷...~OCRで業務効率化も、データ活用も~ 文字認識はここまできた!Special Feature お問合 せ: [email protected] 発行/凸版印刷株式会社

  • Upload
    others

  • View
    1

  • Download
    0

Embed Size (px)

Citation preview

~OCRで業務効率化も、データ活用も~文字認識はここまできた!Special Feature

お問

合せ

[email protected]

●発

行/

凸版

印刷

株式

会社

情報

コミ

ュニ

ケー

ショ

ン事

業本

部●

発行

責任

者/

伊藤

嘉晃

●制

作/

トッ

パン

エデ

ィトリ

アル

コミ

ュニ

ケー

ショ

ンズ

株式

会社

●発

行日

/2019 年

7月1日

vol.130

vol.130

2

Data1

Data 2

C O N T E N T S

P18

スマホを誌面に印刷されたARマーカーにかざすだけで、さまざまなARコンテンツが楽しめます。

マーカーを読み取る「AReader」をインストール。Google Play、App Storeで「AReader」をダウンロード(無料)。

「AReader」を 起 動 し、ARマーカーにかざしてコンテンツをダウンロード。

表示されたコンテンツを楽しもう。

STEP1 STEP2 STEP3

アプリを使って表示されるコンテンツを楽しもう

※「アイデアノート」は、凸版文久体を使用しています。※本文中の商号および製品・サービス名称は、各社の商標または登録商標です。

「TOPPAN SOLUTION」は、トッパンの情報コミュニケーション分野のさまざまなソリューションをご紹介するWebサイトです。展示会やセミナーの開催レポートなど、各種オリジナルコンテンツも充実。本誌「アイデアノート」のバックナンバーもご覧いただけます。課題解決のヒントとして、ぜひご活用ください。

「TOPPAN SOLUTION」Webサイトのご案内

https://www.toppan.co.jp/solution/

詳しくはこちら!

読む前に、読むデータ OCR編03

Special Feature04

06

08

10

12

15

山本 和明さん 海野 圭介さん 大学共同利用機関法人 人間文化研究機構 国文学研究資料館

大澤 留次郎 凸版印刷株式会社 情報コミュニケーション事業本部 ICT開発本部 課長

独自システムで高品質を実現! トッパンの「高精度OCR全文テキスト化サービス」

CASE 1 トヨタ自動車株式会社様企業文化を継承するための貴重史資料の保護と情報発信の両立をCASE 2 早稲田大学様テキスト化の先にあるデジタル利活用で百年史を手に届く情報に

Special Interview

日本の「知の宝庫」を世界へ。古典籍を未来へとつなげるプロジェクト

Topic文字認識技術の進化の先にあるもの

文字認識はここまできた!~OCRで業務効率化も、データ活用も~

NEWS & INFORMATION

トッパンのお仕事三菱電機株式会社様 カレンダー

「光耀 A TAPESTRY OF LIGHT」

Visual Communication Vol. 4真言宗総本山 教王護国寺(東寺)様360度画像で伝える東寺の新たな魅力

19

16

18

内田 誠一さん 九州大学 大学院 システム情報科学研究院 教授

2

Data1

Data 2

C O N T E N T S

P18

スマホを誌面に印刷されたARマーカーにかざすだけで、さまざまなARコンテンツが楽しめます。

マーカーを読み取る「AReader」をインストール。Google Play、App Storeで「AReader」をダウンロード(無料)。

「AReader」を 起 動 し、ARマーカーにかざしてコンテンツをダウンロード。

表示されたコンテンツを楽しもう。

STEP1 STEP2 STEP3

アプリを使って表示されるコンテンツを楽しもう

※「アイデアノート」は、凸版文久体を使用しています。※本文中の商号および製品・サービス名称は、各社の商標または登録商標です。

「TOPPAN SOLUTION」は、トッパンの情報コミュニケーション分野のさまざまなソリューションをご紹介するWebサイトです。展示会やセミナーの開催レポートなど、各種オリジナルコンテンツも充実。本誌「アイデアノート」のバックナンバーもご覧いただけます。課題解決のヒントとして、ぜひご活用ください。

「TOPPAN SOLUTION」Webサイトのご案内

https://www.toppan.co.jp/solution/

詳しくはこちら!

読む前に、読むデータ OCR編03

Special Feature04

06

08

10

12

15

山本 和明さん 海野 圭介さん 大学共同利用機関法人 人間文化研究機構 国文学研究資料館

大澤 留次郎 凸版印刷株式会社 情報コミュニケーション事業本部 ICT開発本部 課長

独自システムで高品質を実現! トッパンの「高精度OCR全文テキスト化サービス」

CASE 1 トヨタ自動車株式会社様企業文化を継承するための貴重史資料の保護と情報発信の両立をCASE 2 早稲田大学様テキスト化の先にあるデジタル利活用で百年史を手に届く情報に

Special Interview

日本の「知の宝庫」を世界へ。古典籍を未来へとつなげるプロジェクト

Topic文字認識技術の進化の先にあるもの

文字認識はここまできた!~OCRで業務効率化も、データ活用も~

NEWS & INFORMATION

トッパンのお仕事三菱電機株式会社様 カレンダー

「光耀 A TAPESTRY OF LIGHT」

Visual Communication Vol. 4真言宗総本山 教王護国寺(東寺)様360度画像で伝える東寺の新たな魅力

19

16

18

内田 誠一さん 九州大学 大学院 システム情報科学研究院 教授

3

読 む 前 に 、 読 む デ ー タ | OCR 編

OCRは近年、ペーパーレス化のための基盤整備や、RPAとの組み合わせで業務効率化を推進するための技術として着目されていますが、その研究・開発には実は長い歴史があります。

●働き方の課題(複数回答)

●OCRの歴史

働き方の課題として約6割の人※が、

「紙で管理する書類が煩雑」を挙げる働き方を改善していく中で、紙媒体の書類の管理は多くの人が抱えている共通課題のようです。OCR化はペーパーレス化を推進するための足掛かりにもなります。

意外と歴史が長い OCR技術1950年代から商用化が進み、ビジネスや暮らしに身近な存在になっています。

Data1

Data 2

出典:株式会社SmartHR「働き方の課題に関するアンケート調査」(2017年10月)

※人事労務担当者・ 経営者対象

参考:一般社団法人情報処理学会「コンピュータ博物館」ほか

紙で管理している

書類が煩雑仕事の成果が

見えづらい

無駄な会議が多い

育休・産休を

取得しづらい

経営陣と現場の意思疎通

がとれていない

女性が活躍しづらい

ハラスメント

がある

61.2

51.8

29.4

0

10

20

30

40

50

60

70(%)

56.5

36.528.2 27.1紙での管理は大変!

と思っている人が約6割!

1929グスタフ・タウシェクがドイツでOCRに関する特許を取得

1968東芝が郵便物における郵便番号の読み取りを区分機を実用化

1971電子技術総合研究所(現・産業技術総合研究所)と東芝が共同で英文活字をOCR

1950年代

リーダーズ・ダイジェスト社がOCRシステムを起用商用起用の始まり

1968 日立が国産初の汎用OCRを開発

1989東芝が漢字で書かれた宛名の読み取り区分機を製品化

2013凸版印刷が高精度OCR全文テキスト化サービスを開始

2015凸版印刷が古典籍の「くずし字」を80%超の精度でテキストデータ化する技術を開発

1995NEC製両面高速OCRが大型帳票の表裏両面の高速同時読み取りを実現

2010年代

Evernote、GoogleドライブなどにOCR機能が搭載され、OCRが一般に広く普及

問い合わせ対応などの業務の効率化を図って、働く人の負担軽減に! どこにあるか分からなかった

情報が簡単に検索できる!

散らかったオフィスの整理や、データの保管にも一役買います。

社史や年史などの資料をデジタル化することで、我が社の魅力を再発見!

4

文字認識はここまできた!~OCRで業務効率化も、データ活用も~OCR(光学文字認識)とは、手書きや印刷された文字を、イメージスキャナーやデジタルカメラで画像として読み取り、データとして利活用できるように、デジタルの文字コードに変換する技術です。目には映りにくいものですが、たとえば、年史や重要文書をデータ化することで、企業文化承継に役立てたり、資料の検索性を上げることで業務効率化に貢献したり、さまざまな場面で私たちの仕事を支えてくれる可能性を秘めています。トッパンではOCRを使いながら、その時、その場面に合った答えのかたちを、皆さんとともにつくっていきたいと考えています。

Special Feature

問い合わせ対応などの業務の効率化を図って、働く人の負担軽減に! どこにあるか分からなかった

情報が簡単に検索できる!

散らかったオフィスの整理や、データの保管にも一役買います。

社史や年史などの資料をデジタル化することで、我が社の魅力を再発見!

4

文字認識はここまできた!~OCRで業務効率化も、データ活用も~OCR(光学文字認識)とは、手書きや印刷された文字を、イメージスキャナーやデジタルカメラで画像として読み取り、データとして利活用できるように、デジタルの文字コードに変換する技術です。目には映りにくいものですが、たとえば、年史や重要文書をデータ化することで、企業文化承継に役立てたり、資料の検索性を上げることで業務効率化に貢献したり、さまざまな場面で私たちの仕事を支えてくれる可能性を秘めています。トッパンではOCRを使いながら、その時、その場面に合った答えのかたちを、皆さんとともにつくっていきたいと考えています。

Special Feature

問い合わせ対応などの業務の効率化を図って、働く人の負担軽減に! どこにあるか分からなかった

情報が簡単に検索できる!

散らかったオフィスの整理や、データの保管にも一役買います。

社史や年史などの資料をデジタル化することで、我が社の魅力を再発見!

Special Feature 文字認識はここまできた!~OCRで業務効率化も、データ活用も~

5

 文字や言葉が人間にとって必要であることは、当然なことなのですが、身近すぎて、そのことを改めて考える機会は、意外と少ないかもしれません。 人は文字や、言葉を使ってコミュニケーションを取る方法を工夫し、発明し続けています。印刷物、郵便、新聞、インターネット。振り返れば、紙媒体から電子媒体へ伝達手段は多様化し、情報量は増加し続けています。その中で、文字という記号を介して情報のやり取りをしている点は、今も変わらず、今後も変わることはないでしょう。 書籍や書類など紙媒体の文字情報の記録は、形として残せることが利点ですが、たまり続けていくと、大切な情報がどこにあるか分からなくなってしまうリスクがあります。情報量と伝達手段が増えている現代だからこそ、

必要な時に、必要な情報を引き出して使えるようにしておくことの、重要性が増していくと思われます。 OCRなどの技術を使えば、紙媒体と電子媒体の壁を超えて、データを同じ場所に保管できます。そうすることで、大切な情報を守りながら活用することができ、より多くの人に、より長い間、伝えていくことができるようになります。 過去にあった事実を確認する時、新しいものを生み出すためのヒントや材料を探す時など、保管された情報をたどる目的やタイミングはさまざまです。OCRを用いることによって、情報を必要としている人と、その人が求める過去の情報が、いつでもうまくつながるようになれば、それが働く人たちの手助けや、新しいアイデアのヒントになると考えます。

大切な過去の記録が新しいヒントや発見に

6

「高精度OCR独自システムで高品質を実現!

「高精度OCR全文テキスト化サービス」は、トッパンが培ってきた印刷テクノロジーとノウハウを基に独自に開発したOCR技術や校正システムを活用することで、紙の文献・資料等から、高品質なテキストデータをお客さまのご利用目的に合わせて提供するサービスです。

「高精度OCR全文テキスト化サービス」の3つの特長

あらゆるスタイルの文字を読み取り可能ルビ付の文字や、回転文字、縦中横、表組など、これまで対応が困難だった文字の読み取りができます。また、旧字、和欧文混在などの文章や、白抜き文字、背景に絵柄が入っている文字などにも対応可能です。

従来の手法では、元原稿とOCRテキストを比較して、誤認識部分に赤字を記入して修正を行っていますが、トッパンでは、OCRの認識結果をモニターに文字単位でグループ化して表示。誤認識箇所を選択して、1回で修正する方法を取っています。

テキスト形式だけでなく、透明テキスト付PDF ※、Web、エクセル、ワード、電子書籍、データベース形式など、お客さまの利用目的に最適なデータ形式に変換・加工して納品します。

多彩なデータ形式に変換

独自校正システムで認識精度99.98%を実現

地上67メートルに

聳える紀元前から

存在すると言われ

るこの塔には多く

の神々が祭られて

いるという。

回転 ルビ 表組 縦中横

67

※活字現代文の場合。原稿状態や使用文字種等によって変動します。

従来の手法(元原稿との比較校正)

※透明テキスト付PDFで検索が容易に

トッパンの手法(校正システムを使用)

誌面画像の文字位置に、透明のテキストを重ねて配置することで、誌面イメージを参照しながらテキスト検索やコピーが行えます。 JPEG画像

原稿例:凸版印刷社内報 透明テキスト付PDF

特長 1

特長 2

特長 3

指示に基づいてOCR テキストを修正

誤認識箇所を選択、複数箇所を1回で修正

過去の紙ベースの資料の文字検索が容易に

“T

he Great C

entury”

このようにしてはじめら

ケアリ (W

illiam Carey,

決やそれらへの対応は、

た。このような状況のも

きしに、燈火のご

たり、川の三分の

この星の名は苦

り、水の苦くなり

ともしび

かは

ほし

みづ

にが

にが

さんぶん

エンジン

型式

種類燃料供給装置総排気量内径×行程圧縮比最高出力(ネット)最大トルク(ネット)使用燃料燃料タンク容量

1.79582.0×85.011.5

140(190)/7,600180(18.4)/6,800無鉛プレミアムガソリン※1

11.79479.0×91.510.0

100(136)/6,000※2171(17.4)/4,200※3無鉛レギュラーガソリン

1.8VVTL-i2ZZ-GE

1.8VVTL-i1ZZ-FE

直列 4気筒DOHC15バルブEFI(電子制御式燃料噴射装置)

※1. 無鉛レギュラーガソリンは使用しないでください。(16.4)/4,200 となります。※4.4WD車は77(105)/6,000 となります。●エンジン出力表示には、ネット値とグロス値があります。エンジンを車両に搭載した状態とほぼ同条件で測定したものです。よりもガソリン自動車で約15%程度低い値(自工会調べ)となっています。

「高精度OCR

6

※透明テキスト誌面画像の文字位置にを重ねて配置することでを参照しながらテキスト検索やコピーが行えます。

6

「高精度OCR独自システムで高品質を実現!

「高精度OCR全文テキスト化サービス」は、トッパンが培ってきた印刷テクノロジーとノウハウを基に独自に開発したOCR技術や校正システムを活用することで、紙の文献・資料等から、高品質なテキストデータをお客さまのご利用目的に合わせて提供するサービスです。

「高精度OCR全文テキスト化サービス」の3つの特長

あらゆるスタイルの文字を読み取り可能ルビ付の文字や、回転文字、縦中横、表組など、これまで対応が困難だった文字の読み取りができます。また、旧字、和欧文混在などの文章や、白抜き文字、背景に絵柄が入っている文字などにも対応可能です。

従来の手法では、元原稿とOCRテキストを比較して、誤認識部分に赤字を記入して修正を行っていますが、トッパンでは、OCRの認識結果をモニターに文字単位でグループ化して表示。誤認識箇所を選択して、1回で修正する方法を取っています。

テキスト形式だけでなく、透明テキスト付PDF ※、Web、エクセル、ワード、電子書籍、データベース形式など、お客さまの利用目的に最適なデータ形式に変換・加工して納品します。

多彩なデータ形式に変換

独自校正システムで認識精度99.98%を実現

地上67メートルに

聳える紀元前から

存在すると言われ

るこの塔には多く

の神々が祭られて

いるという。

回転 ルビ 表組 縦中横

67

※活字現代文の場合。原稿状態や使用文字種等によって変動します。

従来の手法(元原稿との比較校正)

※透明テキスト付PDFで検索が容易に

トッパンの手法(校正システムを使用)

誌面画像の文字位置に、透明のテキストを重ねて配置することで、誌面イメージを参照しながらテキスト検索やコピーが行えます。 JPEG画像

原稿例:凸版印刷社内報 透明テキスト付PDF

特長 1

特長 2

特長 3

指示に基づいてOCR テキストを修正

誤認識箇所を選択、複数箇所を1回で修正

過去の紙ベースの資料の文字検索が容易に

“T

he Great C

entury”

このようにしてはじめら

ケアリ (W

illiam Carey,

決やそれらへの対応は、

た。このような状況のも

きしに、燈火のご

たり、川の三分の

この星の名は苦

り、水の苦くなり

ともしび

かは

ほし

みづ

にが

にが

さんぶん

エンジン

型式

種類燃料供給装置総排気量内径×行程圧縮比最高出力(ネット)最大トルク(ネット)使用燃料燃料タンク容量

1.79582.0×85.011.5

140(190)/7,600180(18.4)/6,800無鉛プレミアムガソリン※1

11.79479.0×91.510.0

100(136)/6,000※2171(17.4)/4,200※3無鉛レギュラーガソリン

1.8VVTL-i2ZZ-GE

1.8VVTL-i1ZZ-FE

直列 4気筒DOHC15バルブEFI(電子制御式燃料噴射装置)

※1. 無鉛レギュラーガソリンは使用しないでください。(16.4)/4,200 となります。※4.4WD車は77(105)/6,000 となります。●エンジン出力表示には、ネット値とグロス値があります。エンジンを車両に搭載した状態とほぼ同条件で測定したものです。よりもガソリン自動車で約15%程度低い値(自工会調べ)となっています。

「高精度OCR

6

※透明テキスト誌面画像の文字位置にを重ねて配置することでを参照しながらテキスト検索やコピーが行えます。

Special Feature 文字認識はここまできた!~OCRで業務効率化も、データ活用も~

7

文字をデータ化することでどのような価値が生まれるのか?なかなかイメージがしにくいかもしれません。直近の業務につながるものから、事業に必要なプロジェクトのサポートなど、新たな価値をさまざまな形で生み出します。

全文テキスト化サービス」OCRで作成したデータは、どのような効果や価値があるのか?

紙媒体で保存されている社内文書をデジタル化していくことが、データ利活用への第一歩となります。

データを関係者が共有できる形にすることで、さまざまな効果を得ることができます。

データと、他の知見やソリューションを組み合わせることで、新しい価値を生み出すことも可能です。

1. 紙資料のデジタル化をサポート

2. 日々の業務改善に具体策

3. 新たな価値を生み出す種に

企業BCP対応に活用(事業継続計画)

文献研究のサポート

社史・社内報のアーカイブ

年史の編纂を効率化

貴重資料の文書マネジメント

検索に要した時間削減で、業務効率化

資料の検索性向上

顧客とのコミュニケーションの接点に

紙書類の保存場所の省スペースに

データを使った新しいコンテンツづくり

企業文化の醸成

RPAと組み合わせ

AI データ解析

多言語翻訳

サイトのリッチコンテンツ化

社員教育に活用

音声データ化

紙資料のデジタル化

業務効率や文書管理にも

今後のデータ活用に

8

 トヨタ自動車様では2011年に『グローバルビジョン』を掲げ、企業の目指すべき方向性を提示しています。その中で、ビジョン経営のあり方を「1本の木」にたとえて説明していますが、アーカイブズグループの活動は、この木の「根」の部分に当たります。「トヨタ共通の価値観」を伝えていく役割を担い、具体的には、創業以来の資料や情報の収集、保存から展示や普及・啓発までを行い、将来に向けて企業活動の根底にあるDNAの継承に貢献しています。 社史の編纂も活動の一つになりますが、発行後に編纂組織

をいったん解散する企業もある中で、同社では継続的な活動を重要視して、社内外への情報発信を行っています。 トヨタ自動車様では社史をこれまでに複数回発行しており、直近では、2012年に『トヨタ自動車 75年史』を刊行しています。刊行後、社長の年頭の挨拶をはじめとするコメントの中に、

「創業の精神」や「トヨタの原点」といった表現が盛り込まれるようになったこともあり、歴史に関する問い合わせが増加したそうです。 「社史を通じて、創業以来の精神を改めて認識し、理解を深めてこれからの事業にも反映させていこうという機会になったのではないかと思います」(アーカイブズグループ談、以下同)

 社内外への情報発信の支援を行っている、アーカイブズグループに寄せられる問い合わせの内容は多岐にわたります。

「会社の歴史や車両、技術、生産、販売、海外に関することだけではなく、グループ会社や仕入先、販売会社が新たに社史を

企業の価値観共有を継続的に支援する

多様な問い合わせに正確かつ迅速に答えるために

トヨタ自動車株式会社様

8

企業文化を継承するための貴重史資料の保護と情報発信の両立を企業が持続的な成長を目指すためには、創業の精神や企業文化など、これまで積み上げてきた経験を振り返り、理解を深めていくことも重要です。また、歴史的に貴重な史資料については、後世に継承していくため、資料の保護に留意しながら、どのように情報活用をしていくかを検討することも課題の一つです。トヨタ自動車様での取り組みについて、社会貢献推進部 企業・車文化室アーカイブズグループのご担当者にお話を伺いました。

社内報の合本や社史など、多種多様な史資料が発行、保管されている

CASE 1

8

8

 トヨタ自動車様では2011年に『グローバルビジョン』を掲げ、企業の目指すべき方向性を提示しています。その中で、ビジョン経営のあり方を「1本の木」にたとえて説明していますが、アーカイブズグループの活動は、この木の「根」の部分に当たります。「トヨタ共通の価値観」を伝えていく役割を担い、具体的には、創業以来の資料や情報の収集、保存から展示や普及・啓発までを行い、将来に向けて企業活動の根底にあるDNAの継承に貢献しています。 社史の編纂も活動の一つになりますが、発行後に編纂組織

をいったん解散する企業もある中で、同社では継続的な活動を重要視して、社内外への情報発信を行っています。 トヨタ自動車様では社史をこれまでに複数回発行しており、直近では、2012年に『トヨタ自動車 75年史』を刊行しています。刊行後、社長の年頭の挨拶をはじめとするコメントの中に、

「創業の精神」や「トヨタの原点」といった表現が盛り込まれるようになったこともあり、歴史に関する問い合わせが増加したそうです。 「社史を通じて、創業以来の精神を改めて認識し、理解を深めてこれからの事業にも反映させていこうという機会になったのではないかと思います」(アーカイブズグループ談、以下同)

 社内外への情報発信の支援を行っている、アーカイブズグループに寄せられる問い合わせの内容は多岐にわたります。

「会社の歴史や車両、技術、生産、販売、海外に関することだけではなく、グループ会社や仕入先、販売会社が新たに社史を

企業の価値観共有を継続的に支援する

多様な問い合わせに正確かつ迅速に答えるために

トヨタ自動車株式会社様

8

企業文化を継承するための貴重史資料の保護と情報発信の両立を企業が持続的な成長を目指すためには、創業の精神や企業文化など、これまで積み上げてきた経験を振り返り、理解を深めていくことも重要です。また、歴史的に貴重な史資料については、後世に継承していくため、資料の保護に留意しながら、どのように情報活用をしていくかを検討することも課題の一つです。トヨタ自動車様での取り組みについて、社会貢献推進部 企業・車文化室アーカイブズグループのご担当者にお話を伺いました。

社内報の合本や社史など、多種多様な史資料が発行、保管されている

CASE 1

8

Special Feature 文字認識はここまできた!~OCRで業務効率化も、データ活用も~

9

制作するために、関連する弊社について調べることもあります。また、過去に働かれていた方のことや、企業スポーツに関することなどもあります」 問い合わせに対しては、「聞かれたことに単に答えるのではなく、目的を理解し、どのような内容、かたちで回答するのがふさわしいかを考え、法規や著作権を確認した上で、お答えしています」と、的確できめ細かな対応を心掛けられています。また必ず、複数の文献を確認して、ご回答されるといいます。 問い合わせの中には迅速な回答が必要なものもありますが、一方で、アーカイブズグループ内の業務量に関して、その労力や時間を考慮する必要もあります。社内外から入る問い合わせは、直接対応することもあれば、メディア関係であれば渉外広報部、仕入先であれば調達部門と、担当部署ごとに一次対応をすることもあります。このような体制を敷いていますが、問い合わせがない日がないほど、対応に奔走されています。 アーカイブズグループでは、企業アーカイブの考え方に基づき、すべての資料やデータを収集するのではなく、どの部署にどのような資料があるかを調査して、アーカイブの「マッピング」を進めています。「たとえば、開発技術に関わるもの、図面などは設計部門のどこに保管しているのかを把握することで、問い合わせに対し瞬時に的確な対応が可能です」と、その意図を説明します。 資料のデジタル化については、「史資料を現時点より劣化させないことが『今いる担当者の使命』。後世のために、いかに現時点の状態を保つかが重要です。極力、現物の取り扱いを削減することを目的に、着手しました」と振り返られます。 デジタル化の具体的な作業については、競合の中から、トッパンのOCR技術の精度等を総合的に評価いただきました。特に資料の使用頻度が高く、文字情報が多い社史や社内報、広報資料などのデジタル化をトッパンで実施しました。このうち社史については、イントラネットで社員全体に公開し、知りたい情報をキーワード検索できるように設定しています。これにより、これまでは問い合わせが必要だったケースも、各社員が自分自身で確認できるようになり、業務工数の削減による効率化を図っています。

 アーカイブズグループがデジタル化を進めた目的は、業務工数の削減だけでなく、創業当時の貴重な史資料の劣化を極力防ぐという目的もあります。印刷物であれば、当然のことながら経年劣化は避けられませんが、デジタル化した資料の現物は、人の閲覧による摩耗などを抑止して保管することができます。 「今後は、創業前後の史資料の保存状態を維持するため、レプリカの作成にも取り組んでいきたいと考えています。情報の提供がスピーディになるだけでなく、社員がこうした貴重な史資料を目にできるようになることで、創業の精神やトヨタの歴史の伝承などに役立ていきたいと考えています」

貴重な史資料を次世代に引き継ぐために

トップ画面から、検索を行う媒体を選択

発行年代順に社内報を表示

検索結果の画面では、キーワード前後の文と、資料画像を確認できる

資料検索用の端末の表示例

凸版印刷株式会社情報コミュニケーション事業本部ソーシャルイノベーションセンター情報インフラ本部 事業開発部部長 

水谷 裕保

 長年にわたる企業活動の足跡を示す社内報・年史・社内外の刊行物といった価値のある企業資料を、いかに永続的に保存し有効活用するかは、企業にとって大きな課題です。トヨタ自動車様から数年前に社内報やニュースリリース原稿のデジタルアーカイブ化のお話をいただき、画像・テキストのデータの処理方法や、アーカイブ全体の仕様から、貴重な原稿の取り扱い方まで、提案をいたしました。特に、99.98%の読み取り精度を実現する独自のOCR技術について高い評価をいただきました。今後は、手書き資料などでも高精度なテキストデータ化が実現できるよう開発を重ね、より広範囲にわたる利活用のご提案を目指してまいります。

高精度なテキストを提供することで、企業活動をサポートしていきます。

 さまざまな企業や機関、学校法人などで、創立以来の歴史が刻まれた個性あふれる年史が編纂されています。企業や組織の歴史を知ることができるだけでなく、産業や文化の歴史としても貴重な史料であるものも多々ありますが、発行部数が少ないことや大型で複数冊に及ぶ形状などから、誰もが気軽に手に取って読めるというわけではありません。 早稲田大学では1978年から1997年にかけて、全8巻からなる『早稲田大学百年史』を刊行しました。年史の重要性に関して、「編纂事業は、対象となる期間の約10分の1をかけるというのがセオリーといわれています。既に2032年の150周年に向けて、2010年から百五十年史の編纂事業が始まっています」と百五十年史の編纂事業に携わる廣木さんは話します。また、大学史資料センターでは各種メディアや卒業生などから寄せられる問い合わせに対して、大学の公式見解として百年史の記載内容を紹介することがあります。田中さんは、「公的な機関にも年史を寄贈していますが、百年史を所蔵している機関は多くはなく、実際手に取ろうとしても、都道府県立レベルの図書館以外では、なかなか閲覧できる場所がなかったと思います」と、これまでの年史活用に関する課題を挙げます。

 百年史の発行後、インターネットが急速に普及していきました。百五十年史の編纂が始まり、その議論の中でも「編纂事業の成果の発信方法」が課題として持ち上がりました。「印刷物だけではなく、電子媒体でもウェブ上でも公開するという方向性が固まる中、百五十年史編纂事業の一環として、実験的に百年史をウェブ上で公開することが決まりました」と廣木さんは、紙媒体として刊行されていた百年史をデジタル化することになった経緯を説明します。 デジタル化すると言っても、印刷物を単に画像化して掲載するだけでは、ネット環境があれば閲覧できるというだけで、利活用については印刷物のみの状態と変わりません。廣木さんは当時に関して、「文字をテキストデータ化できればもっといろいろな使い方ができるということは分かってはいましたが、市販のスキャナーを用いて自力でOCR化しても文字化けが多く、とてもウェブ上で公開できる状態ではありませんでした」と振り返ります。 そのころ、出版界ではデジタル書籍が登場し、トッパンも「高精度OCR全文テキスト化サービス」を確立していました。出版社以外での活用も視野に入れていたトッパンは、早稲田大学様にその独自のサービスを提案する機会を得ました。 「99.98%という高い精度でテキスト化ができるというお話でしたが、実はそのことよりも、テキスト化したデータにwikiシ

貴重な史料であるがゆえに、アクセシビリティに課題

利活用を想定した年史のデジタル化を

CASE 2

テキスト化の先にあるデジタル利活用で百年史を手に届く情報に大学の歴史が綴られた年史は、歴史を知るための史料であるとともに、先人たちの想いや考えを参照することができる書物でもあります。全8巻、8000ページに及ぶ『早稲田大学百年史』は、現在大学のサイトから、誰でも閲覧することが可能です。トッパンでは、年史のデジタル化とデータ利活用に関する提案を行い、百年史のウェブ上での公開をサポートしました。

早稲田大学様

早稲田大学 大学史資料センター

廣木 尚さん(左)

田中 智子さん(右)

10

 さまざまな企業や機関、学校法人などで、創立以来の歴史が刻まれた個性あふれる年史が編纂されています。企業や組織の歴史を知ることができるだけでなく、産業や文化の歴史としても貴重な史料であるものも多々ありますが、発行部数が少ないことや大型で複数冊に及ぶ形状などから、誰もが気軽に手に取って読めるというわけではありません。 早稲田大学では1978年から1997年にかけて、全8巻からなる『早稲田大学百年史』を刊行しました。年史の重要性に関して、「編纂事業は、対象となる期間の約10分の1をかけるというのがセオリーといわれています。既に2032年の150周年に向けて、2010年から百五十年史の編纂事業が始まっています」と百五十年史の編纂事業に携わる廣木さんは話します。また、大学史資料センターでは各種メディアや卒業生などから寄せられる問い合わせに対して、大学の公式見解として百年史の記載内容を紹介することがあります。田中さんは、「公的な機関にも年史を寄贈していますが、百年史を所蔵している機関は多くはなく、実際手に取ろうとしても、都道府県立レベルの図書館以外では、なかなか閲覧できる場所がなかったと思います」と、これまでの年史活用に関する課題を挙げます。

 百年史の発行後、インターネットが急速に普及していきました。百五十年史の編纂が始まり、その議論の中でも「編纂事業の成果の発信方法」が課題として持ち上がりました。「印刷物だけではなく、電子媒体でもウェブ上でも公開するという方向性が固まる中、百五十年史編纂事業の一環として、実験的に百年史をウェブ上で公開することが決まりました」と廣木さんは、紙媒体として刊行されていた百年史をデジタル化することになった経緯を説明します。 デジタル化すると言っても、印刷物を単に画像化して掲載するだけでは、ネット環境があれば閲覧できるというだけで、利活用については印刷物のみの状態と変わりません。廣木さんは当時に関して、「文字をテキストデータ化できればもっといろいろな使い方ができるということは分かってはいましたが、市販のスキャナーを用いて自力でOCR化しても文字化けが多く、とてもウェブ上で公開できる状態ではありませんでした」と振り返ります。 そのころ、出版界ではデジタル書籍が登場し、トッパンも「高精度OCR全文テキスト化サービス」を確立していました。出版社以外での活用も視野に入れていたトッパンは、早稲田大学様にその独自のサービスを提案する機会を得ました。 「99.98%という高い精度でテキスト化ができるというお話でしたが、実はそのことよりも、テキスト化したデータにwikiシ

貴重な史料であるがゆえに、アクセシビリティに課題

利活用を想定した年史のデジタル化を

CASE 2

テキスト化の先にあるデジタル利活用で百年史を手に届く情報に大学の歴史が綴られた年史は、歴史を知るための史料であるとともに、先人たちの想いや考えを参照することができる書物でもあります。全8巻、8000ページに及ぶ『早稲田大学百年史』は、現在大学のサイトから、誰でも閲覧することが可能です。トッパンでは、年史のデジタル化とデータ利活用に関する提案を行い、百年史のウェブ上での公開をサポートしました。

早稲田大学様

早稲田大学 大学史資料センター

廣木 尚さん(左)

田中 智子さん(右)

10

Special Feature 文字認識はここまできた!~OCRで業務効率化も、データ活用も~

凸版印刷株式会社情報コミュニケーション事業本部ソーシャルイノベーションセンター情報インフラ本部 事業開発部 

松田 栄作

ステム※を組み合わせることで、データを利活用できるというウェブでの公開に関する提案に興味を引かれました」(廣木さん)。トッパンの提案が、大学側が潜在的に持っていた「データを活用したい」というニーズとマッチしました。学内からも、wikiシステムの有用性については後押しがあり、具体的にデジタル化事業が進められることになりました。 作業としては、まず「高精度OCR全文テキスト化サービス」を使って、百年史全8巻8000ページに及ぶ文字をテキスト付PDFデータとして生成しました。テキスト付PDFデータは学内で公開された後、簡単にキーワード検索ができるウェブサイトを構築して公開しました。その間、早稲田大学様とトッパンで定例会を行い、議論を繰り返しました。「定例会を行いながら、何でも言い合える良い関係づくりができたことが、良かったと思います」(田中さん)。こうしたコミュニケーションの中から、トッパンが想定していなかったテキストデータの活用ニーズも掘り起こされました。 百年史のサイトでは、原本画像ビューアを使った表示機能や、大学内人名データベースとの連携による人名リンク機能も搭載しています。 「これまでは調べものに際し、それがどこに書かれているかページをめくって調べなければなりませんでしたが、今はキーワードを入力して簡単に検索できるようになりました。また、資料づくりや講義の資料などにも活用できるので、学内での評判もいいですね」(田中さん)。 wikiシステムの注釈機能を使って、後から判明した事実などを注釈として入れることで、情報の精度を高めることも計画されています。百年史をウェブ上で公開してから、他の大学からの問い合わせも寄せられており、今後この動きが広がってくることが予想されます。

 百年史で得たノウハウを、百五十年史の編纂に活かそうという構想もあります。現在編集が進行中の百五十年史の原稿を、編纂用のウェブに公開し、複数の関係者が注釈機能やコメント機能を使って校正を入れる方法を考えています。これにより、校正が入る度に校正紙を回覧するよりも効率をアップさせ、最終的には、ウェブ上で全校正作業を行い、終了と同時に印刷に入る「デジタル編集」も視野に入れて検討しています。 「デジタル編集もトッパンさんからの提案です。編纂作業を効率化したいという私たちの潜在的なニーズに対する的確な提案だったと思います」(廣木さん)。 全3巻を予定している百五十年史は、2022年から段階的に刊行が予定されています。 トッパンでは、今後も引き続き、大学側のニーズを踏まえながら編纂事業をサポートしていきます。

 早稲田大学様では、百年史のテキストデータを学内公開した後、一般公開用のウェブサイトをトッパンと検討を重ねながら、構築を進めてまいりました。一度テキスト化したデータは、機能を追加して再活用できるという点もテキスト化の利点です。電子公開にはさまざまな選択肢がありますが、今後も継続して活用されると思われる技術を使うという点も重要で、今回wikiシステムを活用するポイントの一つです。今後も引き続きお客さまのニーズに沿った提案をしていきたいと思います。

その先の利活用ニーズを的確に捉えた提案を

百年史活用で得たノウハウを百五十年史の「デジタル編集」に

キーワードで一括検索が可能

原本画像ビューアでは、紙をめくる感覚で年史を閲覧できる※ ウェブブラウザを通じてウェブページの作成や編集を簡単に行うこと

ができるシステム。

『早稲田大学百年史』のサイトをご覧いただけます詳しくはこちら → https://chronicle100.waseda.jp/index.php

11

12

山本 国文学研究資料館(以下、国文研)の大型プロジェクトである「日本語の歴史的典籍の国際共同研究ネットワーク構築計画※1」(以下、プロジェクト)がスタートしたのが2014年です。国文研が所蔵する数多くの古典籍※2を、日本国内だけでなく世界中の研究者にも自由に利用してもらい、国際的な研究活動を推進することが目標で、トッパンさんには2015年から協力していただいています。大澤 トッパンは、2013年から明治期以降の活字を対象とした「高精度全文テキスト化サービス」を始めました。この技術が

古い資料を扱う研究機関でも何かお役に立たないだろうかと、国文研様にお尋ねしたわけです。山本 国文研が所有している古典籍の多くは、江戸期以前に使われていた「くずし字※3」で書かれていますが、今これを読める人はほとんどいません。ですから、ウェブ上で古典籍を公開しても、画像だけではそのまま読める人が限られてしまうので、書かれている文字をデータ化する必要がありました。くずし字を読める人を集めてテキスト化する場合、どれくらいの人員や予算が必要なのか、果たして10年というプロジェクト期間で達成できるのかなどを、ちょうど考えている最中にお話をいただきました。大澤 トッパンの「高精度全文テキスト化サービス」に「くずし

Special Interview

日本人でも読めない日本語「くずし字」をテキスト化

日本の「知の宝庫」を世界へ。古典籍を未来へとつなげるプロジェクト日本の古典籍の情報をウェブで公開し、国内外の日本文学や文化の研究に幅広く役立つデータベースを構築する̶̶ 約3 0万点に及ぶ古典籍をデータ化する壮大なプロジェクトに、トッパンのOCR技術を使ったテキスト化ソリューションが貢献しています。

国文学研究資料館 × 凸版印刷

大学共同利用機関法人人間文化研究機構 国文学研究資料館教授

海野 圭介さん2019 年 4 月から現職。主な研究分野は和歌文学。国際共同研究を推進すると共に後継計画策定において中心的に活躍する。

凸版印刷株式会社情報コミュニケーション事業本部ICT開発本部 課長

大澤 留次郎

大学共同利用機関法人 人間文化研究機構 国文学研究資料館教授

山本 和明さん2013 年 10 月から現職。主な研究分野は 19 世紀日本文学。「日本語の歴史的典籍の国際共同研究ネットワーク構築計画」立ち上げ当初から中心メンバーとして活躍。現在は、海野教授と共に後継計画の策定に取り組む。

12

山本 国文学研究資料館(以下、国文研)の大型プロジェクトである「日本語の歴史的典籍の国際共同研究ネットワーク構築計画※1」(以下、プロジェクト)がスタートしたのが2014年です。国文研が所蔵する数多くの古典籍※2を、日本国内だけでなく世界中の研究者にも自由に利用してもらい、国際的な研究活動を推進することが目標で、トッパンさんには2015年から協力していただいています。大澤 トッパンは、2013年から明治期以降の活字を対象とした「高精度全文テキスト化サービス」を始めました。この技術が

古い資料を扱う研究機関でも何かお役に立たないだろうかと、国文研様にお尋ねしたわけです。山本 国文研が所有している古典籍の多くは、江戸期以前に使われていた「くずし字※3」で書かれていますが、今これを読める人はほとんどいません。ですから、ウェブ上で古典籍を公開しても、画像だけではそのまま読める人が限られてしまうので、書かれている文字をデータ化する必要がありました。くずし字を読める人を集めてテキスト化する場合、どれくらいの人員や予算が必要なのか、果たして10年というプロジェクト期間で達成できるのかなどを、ちょうど考えている最中にお話をいただきました。大澤 トッパンの「高精度全文テキスト化サービス」に「くずし

Special Interview

日本人でも読めない日本語「くずし字」をテキスト化

日本の「知の宝庫」を世界へ。古典籍を未来へとつなげるプロジェクト日本の古典籍の情報をウェブで公開し、国内外の日本文学や文化の研究に幅広く役立つデータベースを構築する̶̶ 約3 0万点に及ぶ古典籍をデータ化する壮大なプロジェクトに、トッパンのOCR技術を使ったテキスト化ソリューションが貢献しています。

国文学研究資料館 × 凸版印刷

大学共同利用機関法人人間文化研究機構 国文学研究資料館教授

海野 圭介さん2019 年 4 月から現職。主な研究分野は和歌文学。国際共同研究を推進すると共に後継計画策定において中心的に活躍する。

凸版印刷株式会社情報コミュニケーション事業本部ICT開発本部 課長

大澤 留次郎

大学共同利用機関法人 人間文化研究機構 国文学研究資料館教授

山本 和明さん2013 年 10 月から現職。主な研究分野は 19 世紀日本文学。「日本語の歴史的典籍の国際共同研究ネットワーク構築計画」立ち上げ当初から中心メンバーとして活躍。現在は、海野教授と共に後継計画の策定に取り組む。

Special Feature 文字認識はここまできた!~OCRで業務効率化も、データ活用も~

13

字データセット」を搭載したデモをご覧いただいてすぐに、「これは使えそうだ」と言っていただけました。山本 くずし字は、一字一字の区切れが不明瞭なので、それを機械でどう読み取るのかという問題がありました。この時のデモを見てすぐに、難読文字の情報処理を研究されている、はこだて未来大学の寺沢憲吾准教授のことが思い浮かびました。寺沢先生の研究と、これを組み合わせたらくずし字のテキスト化を実現できると考えたのです。

大澤 すぐに寺沢先生との開発が始まりましたね。山本 寺沢先生の技術は、文字の形状を画像で認識して数値化し、アルゴリズムを使って、文書の他のところから同じ形を見つけ出すというものですが、テキスト化については研究の対象ではありませんでした。一方でトッパンさんのテキスト化技術は、活字を基本にしているので一字一字切り離されていないと認識できないのですが、寺沢先生の技術を使えばそれが可能になります。まさにこれ以上ないタイミングで、企業と研究者が出会い、お互いに足りない技術を補完しあえたということです。大澤 山本先生がこの問題に取り組まれて、何をどうしたらいいか、情報技術の分野まで幅広くアンテナを張って、情報収集されていたおかげです。寺沢先生にお会いしてから2カ月くらいで「くずし字OCR技術」のプロトタイプができあがりました。山本 そこからも大変でしたね。最初に源氏物語の版本である程度の認識率が出ましたが、さらに認識率を高めるためにはどうしたらいいのかが分かりませんでした。大澤さんからは、学習データの量をとにかく増やしていかないと認識率は高められないとアドバイスをいただきました。 くずし字は、字の形にいろいろなバリエーションがあって、漢字だけでも6000字くらいあるうえ、1字について数千という単位のデータを集めないとコンピュータが読み取れるようにならないということが分かりました。3年間データの蓄積に取り組み続け、今秋にはようやく100万字の「くずし字字形データセット」が完成する見込みです。

大澤 国文研様の取り組みの成果は、「くずし字字形データセット」を日本で初めて網羅的に作ったという点にあります。広報活動も積極的に行われていますね。山本 公開研究会などの機会をとらえて、トッパンさんと協働でこの取り組みを行っていると公表しています。データベースは開放しており、国文学だけでなく、ありとあらゆる分野の古典籍のデータをオープンにすることで、さまざまな分野の研究に役立つことが期待されています。大澤 字形データセットと認識エンジンを組み合わせて、翻刻※4

システムを構築して事業化するのは、弊社の今後の課題です。トッパンとしては字形データセットに、ディープラーニングを組み合わせたりして、研究者のニーズもくみ上げながら、よりユーザーフレンドリーなシステムにしていきたいと思います。海野 国文研の事業は基本的に古典籍を対象としていますが、世の中には手紙や日記など、古文書・古記録といわれるものも山のようにあります。海外に流出している日本の絵画や書物もたくさんあり、日本に関心のある外国の方には、そこに何が書いてあるのか知りたいというニーズがあると思います。 また、たとえば英語なら、古い文献でもアルファベットが分かれば読めるのですが、日本語には従来さまざまな文字種があり、変体仮名※5と呼ばれる異体字も存在します。それらが明治期に一字一音に統一されたことで印刷における効率は高まりましたが、一般の人は古い文字を読めなくなってしまいました。旧家で古典籍が見つかっても文字が読めないので内容が分からず、捨ててしまったという話を耳にします。古典籍は「知の宝庫」でもあるわけですから、もしそれが読めれば、知識

絶妙なタイミングで出会い新しい技術につながる

日本で初めての「くずし字字形データセット」を公開

※1 日本語の歴史的典籍の国際共同研究ネットワーク構築計画:国文研が中心となり、国内外の大学等と連携して、「日本語の歴史的典籍」に関する国際共同研究ネットワークを構築することを目的とした事業。古典籍約30万点の全冊画像化を行い、古典籍の書誌データベースと統合し、自在に画像を検索できるデータベースを構築。

※2 古典籍:江戸期以前に出版もしくは書写された書籍で、一般に資料価値が認められているものを指す。奈良時代以降の古写経、物語などの古写本、鎌倉時代以降の木版印刷本である古版本などを含む。

※3 くずし字:古典籍や古文書の表記に用いられる、楷書の点画を省略した手書き文字やそれを基にした版本の文字。

※4 翻刻:古い資料などを、原本どおりに活字に組むなどして新たに出版すること。または、古典籍などを基にテキストデータ起こしをすること。

※5 変体仮名:現行の標準仮名とは異なった字体、書体の仮名。それぞれの仮名のもととなった漢字を字母という。たとえば「あ」では「安」「悪」「阿」「愛」などがもととなった書体があった。明治33年(1900年)に小学校令施行規則によりひらがなの書体が一音一字に統一され、変体仮名は使われなくなっていった。

14

大澤 この技術を導入したことで、プロジェクトが目指すところも少し変わってきたでしょうか。海野 テキスト化のその先を考えることができるようになったと思います。たとえば、欧米の研究機関のように、文献の中に描かれた絵の説明なども提供できるように検討中です。 国文研では今、古典籍のポータルサイトを目指して、データベース構築に取り組んでいます。海外の人でも、ここにアクセスすれば自分の興味があるものや、研究の助けになる資料が

見つかるという環境を作り出して、国内外を問わず、いろいろな立場の研究者や一般の方がそれを見ることで、新しい発見がある場をつくりたいと思っています。 また、さまざまな時代の文献のデータを蓄積していくことにより、たとえば1000年のスパンで過去の文献をたどることができるようになれば、日本人が何を考えてきたか、それがどう変化してきたかを知ることができるのではないかと思います。古典籍にはさまざまな分野の研究資料になる情報が載っていますので、このプロジェクトを未来につなげていくためにも、いろいろな分野と協働していきたいですね。大澤 トッパンも、技術の開発と同時に、日本の文化を保全し、未来につなげていくという意義を重視していきたいと思います。古典籍に対する関心をどう広げていくか、マーケットを創っていくという使命を持って、あらゆる可能性を探っていきます。

1000年のスパンで日本人の心の変遷を探る

古典籍ファンをどんどん増やしていきたいですね

挿絵入りの実用書は当時の暮らしぶりが

分かりますね

古典籍をそのまま味わえるくずし字Webビューア「ふみのは®」2017年、トッパンは、誰でも容易にくずし字で書かれた古典籍にアクセスできるWebビューア「ふみのは®」を開発しました。原本画像の文字と同じ位置に翻刻テキストを表示することができるため、原著を読んでいるような体験を利用者に提供できます。また、現代語訳や多言語への切り替え表示、外部データベース・検索システムとの連携も可能です。

も広がるし新たな発見につながるかもしれない、そういう可能性があるということを、もっと発信していきたいと思っています。大澤 OCR技術の研究者の方たちは技術の精度を高めていくことに邁進されていますが、トッパンは事業として翻刻サービスを提供していますので、これまでの経験とノウハウを基に、どのようにすればニーズに応えられるか、最適なサービスを提案できるかを考えていくことが、求められているのではないかと思います。場合によっては、機械ではなく人が作業した方が効率的だというケースだってあり得ます。山本 そうしたビジネス的な知見からのお話は、私たちが今後のプロジェクトの方向性を考えていく上で大変参考になりました。今回のように事業の継続性を重視する企業とのつながりができて一緒にやれたことは、非常に良かった。それがなかったら、果たして3年でここまでの成果が出せただろうかと思います。

翻刻テキスト表示 マウスオーバーして翻刻テキストを表示させることも可能

単語検索

現代語訳

「ふみのは®」画面イメージ

「大晦日曙草紙」凸版印刷株式会社 印刷博物館蔵 多言語翻訳

原本画像と翻刻テキストを切り替え表示

トッパンでは こんなサービスも

14

大澤 この技術を導入したことで、プロジェクトが目指すところも少し変わってきたでしょうか。海野 テキスト化のその先を考えることができるようになったと思います。たとえば、欧米の研究機関のように、文献の中に描かれた絵の説明なども提供できるように検討中です。 国文研では今、古典籍のポータルサイトを目指して、データベース構築に取り組んでいます。海外の人でも、ここにアクセスすれば自分の興味があるものや、研究の助けになる資料が

見つかるという環境を作り出して、国内外を問わず、いろいろな立場の研究者や一般の方がそれを見ることで、新しい発見がある場をつくりたいと思っています。 また、さまざまな時代の文献のデータを蓄積していくことにより、たとえば1000年のスパンで過去の文献をたどることができるようになれば、日本人が何を考えてきたか、それがどう変化してきたかを知ることができるのではないかと思います。古典籍にはさまざまな分野の研究資料になる情報が載っていますので、このプロジェクトを未来につなげていくためにも、いろいろな分野と協働していきたいですね。大澤 トッパンも、技術の開発と同時に、日本の文化を保全し、未来につなげていくという意義を重視していきたいと思います。古典籍に対する関心をどう広げていくか、マーケットを創っていくという使命を持って、あらゆる可能性を探っていきます。

1000年のスパンで日本人の心の変遷を探る

古典籍ファンをどんどん増やしていきたいですね

挿絵入りの実用書は当時の暮らしぶりが

分かりますね

古典籍をそのまま味わえるくずし字Webビューア「ふみのは®」2017年、トッパンは、誰でも容易にくずし字で書かれた古典籍にアクセスできるWebビューア「ふみのは®」を開発しました。原本画像の文字と同じ位置に翻刻テキストを表示することができるため、原著を読んでいるような体験を利用者に提供できます。また、現代語訳や多言語への切り替え表示、外部データベース・検索システムとの連携も可能です。

も広がるし新たな発見につながるかもしれない、そういう可能性があるということを、もっと発信していきたいと思っています。大澤 OCR技術の研究者の方たちは技術の精度を高めていくことに邁進されていますが、トッパンは事業として翻刻サービスを提供していますので、これまでの経験とノウハウを基に、どのようにすればニーズに応えられるか、最適なサービスを提案できるかを考えていくことが、求められているのではないかと思います。場合によっては、機械ではなく人が作業した方が効率的だというケースだってあり得ます。山本 そうしたビジネス的な知見からのお話は、私たちが今後のプロジェクトの方向性を考えていく上で大変参考になりました。今回のように事業の継続性を重視する企業とのつながりができて一緒にやれたことは、非常に良かった。それがなかったら、果たして3年でここまでの成果が出せただろうかと思います。

翻刻テキスト表示 マウスオーバーして翻刻テキストを表示させることも可能

単語検索

現代語訳

「ふみのは®」画面イメージ

「大晦日曙草紙」凸版印刷株式会社 印刷博物館蔵 多言語翻訳

原本画像と翻刻テキストを切り替え表示

トッパンでは こんなサービスも

15

 文字認識に関する研究の歴史は古く、約90年前からその取り組みは始まっています。私は画像情報学が専門で、文字画像認識についてもさまざまな方法を試行錯誤してきましたが、近年のAI関連技術の発展、とりわけディープラーニングの活用により、その認識率は大幅に向上しました。AIの活用で効果を得るためには大量のデータが必要になりますが、文字情報は比較的データが集めやすいため、その効果は顕著でした。この急激な変化は研究者にとって大変喜ばしいことと、私は捉えています。これまで取り組むことが難しかった新しいテーマの研究に取り組むことができるようになったからです。 私の場合は、文字情報と人との関わりに興味があるので、それを解明する研究に取り組んでいます。文字の持つさまざまな機能を明らかにすることで、文字と人間、それを取り巻く環境の関わりを多角的に解明しようと試みています(図)。たとえば、情景内の文字の認識です。これまで、人が街中で見かける看板や標識の文字情報を画像からコ

ンピュータに認識させることは難しかったのですが、ここ数年、さまざまな企業・研究機関からのデータ公開やディープラーニングの活用で、認識精度が上がっています。

 文字認識技術は、文字を認識すること自体がゴールではなく、その先のことを考える必要があります。認識した結果をどのように利用していくか、どのような面白いことが社会で実現できるかも大切です。 先ほど挙げた「情景内の文字認識」に関しても、標識や看板を撮影すると、他言語に翻訳されるサービスが既にあるように、OCRを活用したサービスはさまざまなところに導入されています。一方で、まだ実現できていないこともあります。AIとOCRを活用した帳票認識等のRPAサービスへの取り組みが始まっていますが、その中でも、図や表などを含む複雑なものや、フリーレイアウトのものをコンピュータに理解させるのは難易度が高い分野です。トッパンさんが取り組んでいる古文書やくずし字も難

しい分野で、そこに取り組まれてきた経験は日本語OCR全般に活かされるのではないでしょうか。今後も実用的なサービスが生まれ、それに伴う新しい課題も生まれ、その解決のための取り組みも必要になってくるかと思います。 このような人々の役立つシステムやサービスを考えることは企業側の得意な分野ですが、アカデミアの役割としては、物事の基盤や根本となる部分を考えていく必要があると考えています。 たとえば、文字とはそもそも何か、どうしてこのフォントやレイアウトがこの場面で使われるのかなど、文字に関して理解を深めていくための基盤となる研究に現在、取り組んでいます。 人間は言葉を使って物事を思考、認識しています。それを誰かに伝えるためには文字が必要です。だから、文字は自然に発生したものでなく、誰かが意図して、そこに表したものになります。文字への理解を深めていくことは、人間を理解していくことにつながるのではないかと考えています。

AIによる技術発展を新しいチャンスに

文字と人との関係をより深めていくために

AI 関連技術の発展に伴って、文字認識技術はどのように変化してきているのか̶。その技術進化の先にある、今後の社会実装に対する期待や、研究の展望について、文字認識技術研究の第一線で研究されている、九州大学大学院システム情報科学研究院の内田誠一教授にお話を伺いました。

文字認識技術の進化の先にあるもの

周囲の明確化 知識・意味の伝達意味の伝達

雰囲気の伝達 可読性維持

シャンプープープ

○○商店

寿司寿司寿司

言語表現された言語表現された知識・意味は は 文字経由で文字経由で我々に届く

ラベルにより 周囲の事物が

非曖昧化される

文字は変形・ 変形・ ノイズに非常にノイズに非常に

強い、優れた通信符号優れた通信符号

スタイリッシュさ、ゴージャスさなど

の雰囲気を醸し出す

九州大学 大学院システム情報科学研究院 教授

内田 誠一 さん

図:文字の持つ機能と周囲環境・人間との関係

TopicSpecial Feature 文字認識はここまできた!~OCRで業務効率化も、データ活用も~

16

F o c u s o n W o r k sトッパンのお 仕 事

第70回全国カレンダー展 経済産業大臣三菱電機株式会社様 カレンダー 「 光耀 A TAPESTRY OF LIGHT 」

賞(第 1 部門) 受賞

このカレンダーは、三菱電機様の特装版カレンダーで、近年はアートディレクターに浅葉克己氏を迎え、制作しています。2018年からの3年間は、「光耀(躍動する光という意味)」を テーマに制作を予定しており、今回は第2弾。テーマである

「光耀」を、「水」のモチーフで表現しています。今回のカレンダーでは、12カ月の偶数月ページに写真、奇数

月ページはその写真が透けて見えるワックスプラス加工 (P17参照)の紙を重ねる構成にして、「光」と「水」の動きの表現にチャレンジしました。光の強さと彩りの鮮やかさを力強く 印刷した写真に、ワックスプラス加工の紙を重ねることで、 水面の寄せて返す波やしぶき、水の透け感をうまく表現できるのではないかと考えたからです。

ワックスプラス加工は、紙によって仕上がりが変わります。

やわらかすぎたり、よれてしまったり、試行錯誤の連続でした。しかしその中で、ワックスプラス加工で生まれた紙の質感や透かし模様によって、めくる時の音が変わることを発見。水の「音」も表現できるのではと考えました。

たとえば1月は、「年の初め」を意識。しっとりした紙を使い、障子越しに景色が見えるようにすることで、上品で静寂な印象にまとめました。紙をめくる時の音も静かになるよう工夫し ました。

一方3月は、水面に花びらがはらはらと散る華やかな雰囲気を演出するために、光沢のあるワックスプラス加工の紙を使用。めくる時にパリパリと大きい音が立つようにして、「水」が流れる音を表現しました。

このように、それぞれの月で触り心地や音にもこだわって 3種類の紙を使い分けています。透かし模様も、写真と合わせながら、どのような音が立つか考えて配置。透かしが細かいほうが音が立ちやすい、カレンダーをめくる方向に垂直に模様を使うほうが音が大きくなるなど、何度もテスト加工することで得た気づきを生かして、模様を考えました。

特殊加工の透かしが魅せる、「光」と「水」の動き

触れて、聞いて、“五感”でも楽しめるカレンダー

三菱電機株式会社(以下、三菱電機)様のカレンダー制作では、毎年、最先端の印刷技術で「まだ見たことのない表現」に挑戦し 続けています。全国カレンダー展でも連続入選しており、2019年も経済産業大臣賞を受賞。アートディレクションを担当した青柳雅博

(トッパンアイデアセンター クリエイティブ本部)に、本作品のポイントや活用した加工技術などを聞きました。

1月をめくると、うっすらと透けて見えていた朝日が現れる

1月の模様は波をイメージし、横縞のワックスプラス加工を施した

2月 の 写 真 に は、パール調で淡く光る用紙を使用

16

F o c u s o n W o r k sトッパンのお 仕 事

第70回全国カレンダー展 経済産業大臣三菱電機株式会社様 カレンダー 「 光耀 A TAPESTRY OF LIGHT 」

賞(第 1 部門) 受賞

このカレンダーは、三菱電機様の特装版カレンダーで、近年はアートディレクターに浅葉克己氏を迎え、制作しています。2018年からの3年間は、「光耀(躍動する光という意味)」を テーマに制作を予定しており、今回は第2弾。テーマである

「光耀」を、「水」のモチーフで表現しています。今回のカレンダーでは、12カ月の偶数月ページに写真、奇数

月ページはその写真が透けて見えるワックスプラス加工 (P17参照)の紙を重ねる構成にして、「光」と「水」の動きの表現にチャレンジしました。光の強さと彩りの鮮やかさを力強く 印刷した写真に、ワックスプラス加工の紙を重ねることで、 水面の寄せて返す波やしぶき、水の透け感をうまく表現できるのではないかと考えたからです。

ワックスプラス加工は、紙によって仕上がりが変わります。

やわらかすぎたり、よれてしまったり、試行錯誤の連続でした。しかしその中で、ワックスプラス加工で生まれた紙の質感や透かし模様によって、めくる時の音が変わることを発見。水の「音」も表現できるのではと考えました。

たとえば1月は、「年の初め」を意識。しっとりした紙を使い、障子越しに景色が見えるようにすることで、上品で静寂な印象にまとめました。紙をめくる時の音も静かになるよう工夫し ました。

一方3月は、水面に花びらがはらはらと散る華やかな雰囲気を演出するために、光沢のあるワックスプラス加工の紙を使用。めくる時にパリパリと大きい音が立つようにして、「水」が流れる音を表現しました。

このように、それぞれの月で触り心地や音にもこだわって 3種類の紙を使い分けています。透かし模様も、写真と合わせながら、どのような音が立つか考えて配置。透かしが細かいほうが音が立ちやすい、カレンダーをめくる方向に垂直に模様を使うほうが音が大きくなるなど、何度もテスト加工することで得た気づきを生かして、模様を考えました。

特殊加工の透かしが魅せる、「光」と「水」の動き

触れて、聞いて、“五感”でも楽しめるカレンダー

三菱電機株式会社(以下、三菱電機)様のカレンダー制作では、毎年、最先端の印刷技術で「まだ見たことのない表現」に挑戦し 続けています。全国カレンダー展でも連続入選しており、2019年も経済産業大臣賞を受賞。アートディレクションを担当した青柳雅博

(トッパンアイデアセンター クリエイティブ本部)に、本作品のポイントや活用した加工技術などを聞きました。

1月をめくると、うっすらと透けて見えていた朝日が現れる

1月の模様は波をイメージし、横縞のワックスプラス加工を施した

2月 の 写 真 に は、パール調で淡く光る用紙を使用

パリパリ

パリパリ

17

第70回全国カレンダー展 経済産業大臣三菱電機株式会社様 カレンダー 「 光耀 A TAPESTRY OF LIGHT 」

賞(第 1 部門) 受賞

三菱電機様からは、今まで見たことがないようなカレンダーを創ってくださいと毎年依頼されています。今回のカレンダーでは、「水」を“五感”で楽しめる、これまでにないものに仕上がったと自負しています。好評をいただき、全国カレンダー展でも受賞を果たすことができました。

いよいよ次回は3部作の最後の年です。今後も新しい表現を追求し、先端の印刷・加工技術の活用に挑戦して、お客さまの期待を超えるものを目指し続けます。

アートディレクター:浅葉克己、青柳雅博(トッパンアイデアセンター)デザイナー:浅葉克己、小川正洋(トッパンアイデアセンター)プリンティングディレクター:長谷川太二郎(トッパンアイデアセンター)加工:ハート株式会社

【仕様】 判型:H490ミリ×W650ミリ  用紙:表紙/フリッター 本文(奇数月)/わたがみ、羊皮紙、アラベール 本文(偶数月)/新シェルリン、OKメタルスウィート

3月をめくると、水面に花びらがはらはらと散る様子が現れる

4月の写真には、縦スジがはっきりとし、パールによって独特の輝きを放つ用紙を使用

3月はめくる際に音が立ちやすい水玉模様のワックスプラス加工を施した

ワックスプラス加工とは特殊なワックスプラス液を浸透させることで紙を部分的に半透明にする特殊加工。透かしを入れたい場合、通常は紙を切り抜いて透ける紙を貼り付けるが、ワックスプラス加工では1枚の紙に透かしを自由に入れることができ、デザイン性のある加工を施すことが可能。ワックスプラス液の量を調整することで、あえて「にじみ」を表現することもできる。技術開発:ハート株式会社様

表紙の題字は浅葉克己氏が揮毫

●審査講評

●全国カレンダー展とは

奇数月と偶数月で仕様を使い分け、さらにワックスプラス加工 独特の効果である透け感表現により、おだやかなきらめきやまぶしさを表現するなど、贅を尽くした表現に味わいがある。月を めくるとあたかも水のせせらぎの音のように聴こえる効果も意

図的に狙っており、透過した状態、それぞれ個の状態とで大きく変わった印象を与える、五感に響く秀作といえる作品。(抜粋)

全国カレンダー展は1950年に始まり、印刷・加工技術、企画・デザイン力、機能性や創造性に優れた斬新な作品を毎年展示・表彰している。特別賞、部門賞、奨励賞のほか、上位賞として

「内閣総理大臣賞」「経済産業大臣賞」「文部科学大臣賞」「経済産業省商務情報政策局長賞」がある。

 真言宗総本山 教王護国寺(東寺)の中央に位置する講堂には、弘法大師空海(以下、空海)が構想した「立体曼荼羅」の世界が広がっています。言葉では伝えにくい密教の教えを視覚的に表したものが曼荼羅図ですが、空海はそれを立体的に表現することで、よりリアルに教えを伝えようとしたといわれています。 以前からガイドブックの制作を手がけていたトッパンは、清水清太郎氏が撮りおろした写真に加え、360度画像が閲覧できるARマーカーを搭載して「東寺ARフォトブック」としてリニューアルし、立体曼荼羅をはじめとした東寺の新たな魅力を引き出しています。 「立体曼荼羅の写真が掲載された本は多数出版されていますが、その世界に没入できるようなこれまでにない表現をしたいと考え、360度画像を提案しました。立体曼荼羅は、通常は南面(前方)からしか拝観することができず、須弥壇上(仏像が安置されている壇上)にあがる

こともできません。しかしフォトブックではARを使ってさまざまな視点から見ることができます。写真にはない仏像の立体感を感じることができ、まるで自分が曼荼羅の中に入ったような感覚を楽しめます。もしかしたら空海も曼荼羅空間の中に存在する自分を想像したのかもしれません」

(新改)。 フォトブックには、東寺や仏像の基本情報をほとんど掲載しておらず、写真と360度画像にフォーカスした内容になっています。 「東寺のことをよくご存じの方がターゲットです。何度も拝観されている方ほど、360度画像に驚くようですね。東寺の皆さまからも、『このような姿があったのか』と驚きの声があがりました。今後も、『立体』の魅力を引き出すために、3Dでの表現等も提案していきたいです」(新改)。

【担当者】凸版印刷株式会社 文化事業推進本部コンテンツ企画部

大日如来と宝生如来

不動明王(写真左)や帝釈天(写真右)など21体の仏像を普段見られない角度から眺めることができる

品名:東寺ARフォトブックサイズ:A4変形版 32ページ販売場所:東寺境内売店

東寺ARフォトブックを制作

360度画像で伝える東寺の新たな魅力真言宗総本山 教王護国寺(東寺)様

新改 博久

「想い」「アイデア」をリアルなカタチに。心を動かしコミュニケーションをつなぐ先端表現技術

Vol.4

コミュニケーション・ロボット「ATOM」

帝釈天&不動明王を須弥壇上でバーチャル体験

「AReader」アプリでご覧ください。

ARマーカー(P2参照)にスマホをかざしてみると

18

 真言宗総本山 教王護国寺(東寺)の中央に位置する講堂には、弘法大師空海(以下、空海)が構想した「立体曼荼羅」の世界が広がっています。言葉では伝えにくい密教の教えを視覚的に表したものが曼荼羅図ですが、空海はそれを立体的に表現することで、よりリアルに教えを伝えようとしたといわれています。 以前からガイドブックの制作を手がけていたトッパンは、清水清太郎氏が撮りおろした写真に加え、360度画像が閲覧できるARマーカーを搭載して「東寺ARフォトブック」としてリニューアルし、立体曼荼羅をはじめとした東寺の新たな魅力を引き出しています。 「立体曼荼羅の写真が掲載された本は多数出版されていますが、その世界に没入できるようなこれまでにない表現をしたいと考え、360度画像を提案しました。立体曼荼羅は、通常は南面(前方)からしか拝観することができず、須弥壇上(仏像が安置されている壇上)にあがる

こともできません。しかしフォトブックではARを使ってさまざまな視点から見ることができます。写真にはない仏像の立体感を感じることができ、まるで自分が曼荼羅の中に入ったような感覚を楽しめます。もしかしたら空海も曼荼羅空間の中に存在する自分を想像したのかもしれません」

(新改)。 フォトブックには、東寺や仏像の基本情報をほとんど掲載しておらず、写真と360度画像にフォーカスした内容になっています。 「東寺のことをよくご存じの方がターゲットです。何度も拝観されている方ほど、360度画像に驚くようですね。東寺の皆さまからも、『このような姿があったのか』と驚きの声があがりました。今後も、『立体』の魅力を引き出すために、3Dでの表現等も提案していきたいです」(新改)。

【担当者】凸版印刷株式会社 文化事業推進本部コンテンツ企画部

大日如来と宝生如来

不動明王(写真左)や帝釈天(写真右)など21体の仏像を普段見られない角度から眺めることができる

品名:東寺ARフォトブックサイズ:A4変形版 32ページ販売場所:東寺境内売店

東寺ARフォトブックを制作

360度画像で伝える東寺の新たな魅力真言宗総本山 教王護国寺(東寺)様

新改 博久

「想い」「アイデア」をリアルなカタチに。心を動かしコミュニケーションをつなぐ先端表現技術

Vol.4

コミュニケーション・ロボット「ATOM」

帝釈天&不動明王を須弥壇上でバーチャル体験

「AReader」アプリでご覧ください。

ARマーカー(P2参照)にスマホをかざしてみると

18

IN

日本の製造業では、設備老朽化や生産労働人口の減少、匠技術の伝承といった課題を背景に、デジタル技術でものづくりを変革させようという機運が高まっています。しかし、多品種を扱う製造現場はそれぞれ複合的で異なる課題を抱えており、汎用的なシステムを導入しても有効活用されない、具体的にどのような手順でデジタル化を進めるべきか分からない、といった問題があります。そこでトッパンでは、これらの問題に対応するため、多業種・多業界の製造現場の異なる課題に対して課題発見から運用までトータルにサポートする製造DX(デジタルトランスフォーメーション)支援ソリューション「NAVINECTTM(ナビネクト)」を2019年4月から提供。自社製造拠点での20年にわたるデジタル化で培った技術力、システムコーディネート力、セキュリティ管理力を集結させています。製造現場での実践の中で生み出したアプリケーション群を10カテゴリ(右図)に分けており、それぞれ異なる顧客の課題に合わせて個別もしくは組み合わせで提供します。また、IoTソリューションの提供により、ヒト・装置から情報を取得し最適な工程管理を実現、その管理情報をマルチデバイスで見える化することで、現場カイゼンのPDCAを高速かつ効果的に回すことが可能となります。本ソリューションにより、2021年度に関連事業含め150億円の売上を目指します。また今後、デジタル化した製造現場の情報をもとに、

地方創生への取り組みが本格化するなか、トッパンでは地域のさまざまな文化資産をデジタルで再現し、観光資源として活用できる「デジタル文化財」の提供を進めています。具体的には、VRコンテンツを制作してVRシアターで公開したり、全地球測位システム(GPS)を組み合わせた体験型VR観光アプリ「ストリートミュージアム®」などでの公開を推進しています。2019年4月には、日本近代化の礎となった横須賀の歴史遺産群の魅力を伝えるVRコンテンツを制作し、「ストリートミュージアム®」で公開しました。横須賀市では、市内を周遊してその魅力や歴史を感じてもらう「ルートミュージアム」構想を2018年より推進しています。今回トッパンは、第1弾として横須賀製鉄所(造船所)の建設当時の姿をVRで再現しました。横須賀製鉄所(造船所)は日本初の近代的な工場で、現在は米海軍横須賀基地として使用されています。通常非公開のドライドック

(水を抜いた船渠)の内部や、空から見た姿に加え、旧海軍初の国産軍艦「清輝」がドックへ入渠する映像もVR内に収載し、スケールの大きな歴史散策を実現しました。第2弾として引き続き、ペリー来航時の情景や砲台跡をVRで制作していきます。

企業間や消費者までサプライチェーン全体のDXを実現することで、バリューチェーンの最適化につながるソリューション・サービスを開発・展開します。

多品種の複雑な製造工程に対応した製造DX支援ソリューション「NAVINECTTM(ナビネクト)」が始動

トッパンでは、印刷技術・印刷表現をもとにした新たな製品・サービスを日々生み出しています。その中から、最新ニュースをピックアップしてお届けします。

NEWS & INFORMATION

そのほか最新情報はホームページをご覧ください https://www.toppan.co.jp/

NAVINECTTMが提供するアプリケーション

※ ストリートミュージアム®バーチャルリアリティ(VR)と全地球測位システム(GPS)を組み合わせた旅行者向け観光アプリ。かつて存在した史跡を高精細かつ色鮮やかにVRコンテンツで再現し、スマートフォンやタブレット端末で位置情報と連動して、その土地・その場所ならではの体験が可能。旅行者は本アプリを利用することでバーチャル観光が体験できるほか、音声による解説で理解を深めたり、現在の地図だけでなく当時の古地図を見ながらまち歩きを楽しめる。

(写真左)旧横須賀製鉄所

(造船所)

(写真下)旧海軍初の国産軍艦

「清輝」入渠の様子

横須賀の近代化遺産群を体験型VR観光アプリ「ストリートミュージアム®」で再現

ストリートミュージアム®体験型VR観光アプリ「ストリートミュージアム®」は、Google Play/AppStoreから無料でダウンロードいただけます。

19

~OCRで業務効率化も、データ活用も~文字認識はここまできた!Special Feature

お問

合せ

[email protected]

※本

誌掲

載記

事の

無断

転載

を禁

じま

す。

©TOPPAN 2019.7 KⅠ

●発

行/

凸版

印刷

株式

会社

情報

コミ

ュニ

ケー

ショ

ン事

業本

部 

●発

行責

任者

/伊

藤 嘉

晃 

●制

作/

トッ

パン

エデ

ィトリ

アル

コミ

ュニ

ケー

ショ

ンズ

株式

会社 

●発

行日

/2019 年

7月1日

vol.130

280gこの情報誌(毎月8,500部)は、太陽光で発電したグリーン電力100%(年間3,000kWh)で印刷等されています。

この情報誌(毎月8,500部)は、太陽光で発電したグリーン電力100%(年間3,000kWh)で印刷等されています。

CO2の「見える化」カーボンフットプリント1冊あたりhttp://www.cfp-japan.jpCR-BS02ー13001

グリーン電力証書システムに参加し、製造にかかる年間電力4,000kWh相当量の自然エネルギーの普及に貢献している製品です。