32
共共共共共共 共共共共2( Ver 2.2 共共共 共共共共 共共共共共共共共 共共 共共共共共共共共 共共共 共共共共 共共共共共 共共共共 共共共共共共共 共共共 ・・・ ODI Osaka, Advisory Board 共共共共共共共共共共共共共共共共共共共 共共 共共共共 共共共共共共共共共共共共共 共共 共共共 3体(西) 2015 共 6 共 22 共

共通語彙基盤 コア語彙2(Ver 2.2)の紹介

Embed Size (px)

Citation preview

Page 1: 共通語彙基盤 コア語彙2(Ver 2.2)の紹介

共通語彙基盤 コア語彙2( Ver 2.2 )の紹介

武田英明

国立情報学研究所・教授情報処理推進機構・専門員

リンクト・オープン・データ・イニシアティブ 理事長ODI Osaka, Advisory Board

一般社団法人オープンコーポレイツジャパン 理事

第3回自治体オープンデータ推進協議会(関西会議)  2015 年 6 月 22 日

Page 2: 共通語彙基盤 コア語彙2(Ver 2.2)の紹介

本日のお話• IMI 共通語彙とは• コア語彙 2 (バージョン 2.2 )リリース• IMI 共通語彙の利用に向けて• 世界に向けて

Page 3: 共通語彙基盤 コア語彙2(Ver 2.2)の紹介

IMI 共通語彙とは

Page 4: 共通語彙基盤 コア語彙2(Ver 2.2)の紹介

IMI 共通語彙とは• 構造化概念辞書– 概念辞書

• 概念の表記としての用語– 各項目は概念であって用語でない。

• クラス概念と関係概念• 上位下位関係(上位にある概念とはより一般的概念)

– 構造化辞書• 概念は相互につながっていて、その組み合わせ(構

造)で表現されている• クラス概念は属性を示す関係概念と上位下位を示すク

ラス概念• 関係概念は結びつくクラス概念と上位下位の関係概念

Page 5: 共通語彙基盤 コア語彙2(Ver 2.2)の紹介

IMI 共通語彙の構造

人型 氏名 性別 性別コード 生年月日 住所  …

氏名型 種別 姓名 姓 名 性別 …

住所型 種別 表記 郵便番号 都道府県 市区町村 …

文字列文字列文字列

コード型文字列 文字列

文字列文字列文字列

文字列

コード型 種別 値

氏名型

住所型

コードリスト型文字列

コード型

事象型 クラス概念

属性(関係概念)

クラス概念の構造

クラス概念の表記

属性の値の範囲

Page 6: 共通語彙基盤 コア語彙2(Ver 2.2)の紹介

用語と構造のマッピング

○× 会議参加登録

氏名: 

住所:

性別:   

勤務先:

勤務先住所:

参加日:   年  月  日

男/女

人型 氏名 性別 性別コード 生年月日 住所  …

氏名型 種別 姓名 姓 名 性別 …

住所型 種別 表記 郵便番号 都道府県 市区町村 …

文字列文字列文字列コード型

文字列

文字列

文字列文字列文字列

文字列

コード型 種別 値

氏名型

住所型

コードリスト型文字列

コード型

事象型

IMI 共通語彙 特定のデータ構造

Page 7: 共通語彙基盤 コア語彙2(Ver 2.2)の紹介

スキーマのテンプレートとしての共通語彙

○× 会議参加登録

氏名: 

住所:

性別:          

勤務先:

勤務先住所:

参加日:          年  月  日

男/女

人型  氏名 性別 性別コード 生年月日 住所  …

氏名型  種別 姓名 姓 名 性別 …

住所型  種別 表記 郵便番号 都道府県 市区町村 …

文字列文字列文字列

コード型文字列 文字列

文字列文字列文字列

文字列

コード型  種別 値

氏名型

住所型

コードリスト型文字列

コード型

事象型

IMI 共通語彙 特定のデータ構造

人型  氏名 性別 住所 勤務先 

氏名型 姓名

住所型  表記 郵便番号

文字列 文字列

文字列文字列

氏名型

住所型組織型

人 型

日時型

イベント参加型  参加者 参加日

特定のスキーマ

いらないものを取る

必要なものを加える

Page 8: 共通語彙基盤 コア語彙2(Ver 2.2)の紹介

IMI 共通語彙とは• 構造化概念辞書

– 概念辞書• 概念の表記としての用語

– 各項目は概念であって用語でない。• クラス概念と関係概念• 上位下位関係(上位にある概念とはより一般的概念)

– 構造化辞書• 概念は相互につながっていて、その組み合わせ(構造)で表現

されている• クラス概念は属性を示す関係概念と上位下位を示すクラス概念• 関係概念は結びつくクラス概念と上位下位の関係概念

• スキーマのテンプレート– 自分のスキーマをここから取捨択一、追加をして構成す

Page 9: 共通語彙基盤 コア語彙2(Ver 2.2)の紹介

IMI共通語彙基盤の構造• 情報交換のための用語連携インタフェースは、社会全体で使われる用語であるコア語彙、共通語彙及びドメイン固有語彙から構成される。

コア語彙

ドメイン固有語彙各分野での利用に特化した語彙。例)農作業、品種 など

市場

住所

病院

災害復旧費

ドメイン共通語彙分野固有の語彙の内、他の分野でも参照する主要な語彙。例)商店、病院、食品名 など

コア語彙どの分野でも利用される普遍的な語彙。例)人、物、場所、施設、日付 など 地理空間

・施設

移動・交通

農業

財務

ドメイン固有語彙

ドメイン共通語彙

既存の業界・企業内語彙対応表で用語の置き換えをすることを基本とするので、各組織は既存の用語体系を変更する必要が無い

Page 10: 共通語彙基盤 コア語彙2(Ver 2.2)の紹介

IMI 共通語彙基盤の利用の仕組み• 概念モデルとして定義• それを必要な物理形式に変換(シリアライゼー

ション)• 用途に合った物理形式を選択して利用

IMI 概念モデル

RDF 形式 XML 形式 日本語形式

オープンデータ用スキーマ データ交換用スキーマスプレットシート用スキーマ、言語用• 緩い定義• 他のオープンデータとの親• 和性

• 厳密な定義• データベーススキーマ

との親和性

• 緩い定義、単純な構造• 人間可読性

Page 11: 共通語彙基盤 コア語彙2(Ver 2.2)の紹介

コア語彙 2 (バージョン 2.2 )リリース

コア語彙( HTML )  http://imi.ipa.go.jp/ns/core/2/ コア語彙 XML スキーマ 名前空間: http://imi.ipa.go.jp/ns/core/2/ コア語彙 RDF スキーマ 名前空間: http://imi.ipa.go.jp/ns/core/rdf# IEPD (情報交換パッケージドキュメント)

IEPD は、コア語彙を使って情報を交換するためのテンプレート住所地物施設避難施設イベント医療機関氏名設備組織

共通語彙基盤およびコア語彙に関するドキュメント共通語彙基盤概要  http://imi.ipa.go.jp/doc/IMI_Overview_v2.pdfコア語彙テクニカルガイドライン http://

imi.ipa.go.jp/doc/IMI_Core2_TechGuide_v2.pdf

Page 12: 共通語彙基盤 コア語彙2(Ver 2.2)の紹介

語彙の設計方針日本語の語彙とする意味や構造は明確になるようにする業界を越えての情報交換を可能にする用途に応じて適した物理形式によるデータ交換・共有が

可能とするため、特定の物理形式に依存しないようにする

一部の項目を利用することや、項目を追加すること、他の語彙との併用が可能となるようにする

継承などにより、コア語彙など基本的な語彙を最大限活用できるようにする

既存システムの変更をすることなしに、データ交換の際に利用できるようにする

順次導入が可能なようにする

Page 13: 共通語彙基盤 コア語彙2(Ver 2.2)の紹介

共通語彙基盤の語彙 共通語彙基盤の「語彙」は、一般的な「語彙」とは異なり、単純な言葉の集合ではなく、ファイルやインターネットなどを介して行われるコンピュータ間のデータ通信を円滑かつ確実に行うことを目的とした、意味や構造、言葉と言葉の関係などを明確にした言葉の集合である。共通語彙基盤では、それぞれの言葉を「用語」と呼ぶ。

「用語」は、ある特定の意味あるいは概念を示すものであり、構造をもっています。「用語」は、文字を組み合わせた表記である項目名(用語名)により参照される。また、用語は、その意味あるいは概念を、用語や文字列などを型とするプロパティの集合として表現する。

たとえば、「期間」という用語を「開始日時」、「終了日時」、「説明」という下位の用語から構成すると定義することができる。

• 期間 開始日時

終了日時

説明

Page 14: 共通語彙基盤 コア語彙2(Ver 2.2)の紹介

用語の種類「クラス用語」と呼ばれる用語と「プロパティ用語」と呼ばれる用

語の2種類の用語。どちらも言葉として意味をもっているので「用語」と呼ぶが、その構造は大きく異なる。

クラス用語用語の内、後述のプロパティ用語を子要素としてもつ構造を持った用語。他のクラス用語を拡張することで、自身がもつプロパティ用語と拡張元のクラス用語がもつプロパティ用語の両方をもつクラス用語を定義することも可能

プロパティ用語

用語の内、クラス用語と他のクラス用語や値とを関連付けるもの。コア語彙においては、どのプロパティ用語もそれぞれ一つ以上のクラス用語から参照される。

Page 15: 共通語彙基盤 コア語彙2(Ver 2.2)の紹介

クラス用語 項目名、説明、継承、及び、プロパティ用語の集合で構成される 各プロパティに対して、カーディナリティ(出現数)とクラス用語におけ

る意味の説明をもつ ※ 「クラス用語」とは、項目名のことではないことに注意

Page 16: 共通語彙基盤 コア語彙2(Ver 2.2)の紹介

クラス用語の継承他のクラス用語を継承して新たなクラス用語を作成することがで

きる継承したクラス用語は、継承元のすべてのプロパティをもつ継承したクラス用語は継承元にないプロパティを追加することが

できる継承したクラス用語は継承元のクラス用語としても使用できる。例えば、データ型が「組織」となっているプロパティには、「業務組織」の値を指定することができる。

継承

追加

Page 17: 共通語彙基盤 コア語彙2(Ver 2.2)の紹介

プロパティ用語 クラス用語を説明するためのクラス用語や値を表すための用語 項目名、データ型、及び説明から構成される データ型はクラス用語の型か XML スキーマで定義される基本型をとる

クラス用語の子要素として使用される

Page 18: 共通語彙基盤 コア語彙2(Ver 2.2)の紹介

用語の構造

氏名 ic: 氏名型

連絡先 ic:連絡先型

  : :

氏名

姓名 xsd:string

姓名カナ表記 xsd:string

  : :

連絡先

電話番号 ic:電話番号型

住所 ic: 住所型

  : :

電話番号

  : :

住所

国 xsd:string

都道府県 xsd:string

  : :

プロパティ用語のデータ型としてクラス用語を指定することができる。その場合、データ型であるクラス用語がまたプロパティ用語をもつので、図のような概念的な構造をもつ

Page 19: 共通語彙基盤 コア語彙2(Ver 2.2)の紹介

データの作成とシリアライズ 「用語」は概念を定義するものであるため、実際に使用する際には、 XMLや RDF など目的に

合った物理的なデータ表現形式を利用。 共通語彙基盤では、このように物理的なデータ表現形式で表すことを「シリアライズ」と呼ぶ。 コア語彙 2.2 では、 3 種類のデータ表現形式をサポートする。

※ 同じ概念を表現する場合であっても物理形式毎にその表現方法が異なるため、異なる物理形式間での完全な変換を保障するものではない。

XML Schema形式:共通語彙基盤では、主にファイルによるデータ交換やデータ転送、及び集約型のマッシュアップなどに用いられることを想定

RDF Schema形式:共通語彙基盤では、主にネットワークを通したデータ間の関係性記述や、オープンデータの公開・活用に用いられることを想定

自然言語形式: XMLや RDF等の構造化仕様を用いずに、各用語の構造を自然言語に近い形式で表現する形式。 CSV データのヘッダ等として利用される。主に、既存データからの変換やデータ作成の用途に用いられることを想定

コア語彙

XML Schema RDFSchema 自然言語

XMLデータ RDFデータ CSVデータ等

シリアライズ

物理形式の語彙を用いてデータを表現(インスタンス化)

(1)論理形式

(2)物理形式

利用者B 利用者C利用者A

利用者が目的に合わせて語彙のデータを利用

データ

Page 20: 共通語彙基盤 コア語彙2(Ver 2.2)の紹介

コア語彙 様々な分野のデータの中で共通に使用される用語で構成 48個のクラス語彙と 206個のプロパティ語彙

物や事象を表す用語

物や事象の説明を行う用語

値に関する用語

クラス語彙人施設

駐車場建物組織

法人 業務組織

イベント

製品製品個品地物設備

氏名住所場所座標 ID ID体系コードコードリスト名称連絡先アクセスアクセス区間スケジュール

 イベントスケジュー

ル  定期スケジュール  詳細スケジュール  詳細スケジュール規則

構成員施設関連事物実体状況組織関連

重量価格期間時間人数数量長さ面積

容量電話番号日時日付金額測定値

Page 21: 共通語彙基盤 コア語彙2(Ver 2.2)の紹介

イベント(分野に特化したイベント)

(分野に特化した用語)(追加情報1)

(文字列など)(追加情報2)

分野別語彙基本語彙

場所場所

イベントスケジュール

スケジュール

時刻開始時間

住所住所

座標地理座標

時刻終了時間

拡張

コア語彙の利用イメージ

Page 22: 共通語彙基盤 コア語彙2(Ver 2.2)の紹介

消費者

小売店

再販業者

業界団体

製造者

行政

流通

業界毎に言葉やデータ形式が異なっていても業界を超えてデータを共有可能 既存のシステムの大きな改変をせずにデータの共有ができる 必要な部分から順次導入が可能 項目の意味が明確になる

製品名 コード 製造者 出荷先製造者した組織の名称

製造者 製品

名前 住所 名称 コード

商品名 商品コード 価格 入荷日 製造者

製造者の氏名

製造者の組織の名称

製造者の住所

製品の名称

製品の名称

製品の名称

製品のコード

製品のコード

製品のコード

コア語彙の使用イメージ

出荷先の組織の名称

Page 23: 共通語彙基盤 コア語彙2(Ver 2.2)の紹介

IMI 共通語彙の利用に向けて

Page 24: 共通語彙基盤 コア語彙2(Ver 2.2)の紹介

どうやって活用するか• 様々なドキュメントが提供されているが、どう使えば良いのか。

コア語彙

情報連携パッケージ

( IEP )

ツール

情報交換に使用すべき語彙が定義されている。社会で共通的に使う語彙についてグループ化されている

情報交換するための具体的な使用方法を提供している。

実際に組み込んだ事例を示す。

システム等を整備する時に、使えるデータ項目がないか確認する。

基本的な項目のデータ構造を元に、自サービスで導入するためのカスタマイズを行う。データ項目の追加・削除や、使用するコードの指定なども行われる。

データ変換に活用する。

事例 実際に組み込んだ事例を示す。 導入の参考にする。

内容 使い方

Page 25: 共通語彙基盤 コア語彙2(Ver 2.2)の紹介

アプリ開発で活用

25

AED にはどんなデータが

必要なんだろう?

こんなところにIEP があった

活用するデータ項目は、これとこれ。

そうだ、 IEP にはないけど、この項目を追加

しよう

みんなが使えるように、新しい IEP を登録してお

こう。

企画や設計のデータ検討時間を短縮

企画の高度化に注力

IEP を活用

コア語彙も活用

1. やりたいことを決定2. 関連 IEPやコア語彙を抜粋

3. 利用するデータ項目を抜粋

4. 不足するデータを追加

5. 実装

6. ( IEP を登録)

Page 26: 共通語彙基盤 コア語彙2(Ver 2.2)の紹介

行政情報への IMI適用事例: AED Search

• AED の情報は、自治体や企業から公表されていたが、記述内容がバラバラで有り、広域アプリケーションができなかった。また、実用には情報項目が不足していた。

IMI のデータ構造に合わせることにより、設計時間の短縮、広域でのサービス構築が可能になった。

47都道府県の 200 市町村区以上のデータ必須項目LocationName NVARCHAR(MAX), -- 名称Perfecture NVARCHAR(MAX), -- 都道府県City NVARCHAR(MAX), -- 市区町村AddressArea NVARCHAR(MAX), -- 町名以降Source NVARCHAR(MAX), -- 情報源(URL など )オプションLatitude

-- 緯度経度座標系 _緯度Longitude

-- 緯度経度座標系 _経度ScheduleDayType -- 利用可能時間ScheduleDayStartTime -- 開始時間ScheduleDayEndTime -- 終了時間FacilityPlace

-- 設置場所 (※受付横とか )FacilityNote

-- 補足

IdLocationName -- 場所 _地名【名称】Perfecture -- 構造化住所 _ 都道府県City -- 構造化住所 _ 市区町村AddressArea -- 構造化住所 _ 町名Latitude -- 緯度経度座標系 _緯度Longitude -- 緯度経度座標系 _経度FacilityId -- 公共設備 _IDFacilityName -- 公共設備 _ 名称Facilitytdlace -- 公共設備 _設置場所【設置場所】ScheduleDayTytde -- 公共設備 _ 利用可能時間【利用可能時間】ScheduleDayStartTime -- 開始時間ScheduleDayEndTime -- 終了時間AccessAvailabilityOfPad -- 公共設備 _建物内外【建物内外】FacilityUser -- 公共設備 _ 利用者【利用制限】DayOfInstallation -- 公共設備 _設置日PhotoOfAedUrl -- 公共設備 _写真 URL【写真】Url -- 公共設備 _ホームページ【ホームページ】FacilityOwner -- 公共設備 _設置者【設置者】FacilityOperater -- 公共設備 _管理者ContactPoint -- 公共設備 _連絡先【連絡先】ContactTelephone --  連絡先 _電話番号ContactExtension --  連絡先 _ 内線番号FacilityNote -- 公共設備 _補足【補足】TypeOfPad -- AED_ パッド種類ExpiryDate -- AED_有効期限ExpiryDateOfPads -- AED_ パッド有効期限ExpiryDateOfBatteries -- AED_ バッテリ有効期限TypeOfDefibrillator -- AED_ タイプModelNumber -- AED_ モデルナンバーSerialNumber -- AED_ シリアルナンバーSource -- メタデータ _ 情報源DateOfUpdatingInformation -- 更新日時

共通語彙基盤 IODD2014公共設備 APPS開発支援キット(データ項目・構造)

ハッカソン、開発者等に提供

データ構造に基づくアプリ開発 JSON Data - AED 位置情報のフォーマット

広域でのアプリ開発、データ共有が効率的に可能http://hatsunejournal.jp/w8/aedSearch/

Page 27: 共通語彙基盤 コア語彙2(Ver 2.2)の紹介

語彙利用の現実的アプローチ〜段階的データ構造化〜

• 各行政機関は、できる範囲でレベル感を選択• データ項目を定義することで、自動解析を容易化。• 蓄積した情報はレベル A で蓄積• レベル指定の無い情報はレベル D のまま。• ビューとしては、レベル A と D を用意

[ 日時 ][場所]

[期限 ][ 日時 ][場所]

レベル A・詳細レベルまで細分化

レベル B・本文の中項目レベルで細分

化・[]タグで下位の項目を明

記することを推奨

レベル B・本文の大項目レベルで細分

化・[]タグで下位の項目を明

記することを推奨

レベル C・本文は自由記述・[]タグで下位の項目を

明記することを推奨

記述内容にルールをはめることで、分割可能逆に表示する時には、合成して作成

Page 28: 共通語彙基盤 コア語彙2(Ver 2.2)の紹介

世界に向けて

Page 29: 共通語彙基盤 コア語彙2(Ver 2.2)の紹介

世界に向けて

NIEM

• 日・米・欧の関係機関が「 Community of Practice on Core Data Models 」の設立

• 目的– Good Practice の共有– 各国の基本語彙間のマッピング

• 初期メンバー– 欧州委員会 DG Informatics– 欧州各国( 12カ国)の担当組織– 米国 NIEM– 日本 IMI

Page 30: 共通語彙基盤 コア語彙2(Ver 2.2)の紹介

世界に向けて• SEMIC 2015 - Semantic Interoperability

Conference–招待講演:和田氏(経産省)、田代氏( IPA)

• Workshop: Community of Practice on Core Data Models– 各コアモデル間のマッピング

Page 31: 共通語彙基盤 コア語彙2(Ver 2.2)の紹介

今後の予定• 語彙データベースの整備

– 語彙を検索したり、データテンプレートなどの共有を行う語彙データベースを整備する。

• ツールの整備– データの作成や変換を支援するツールなど、共通語彙基盤の語彙を容易

に利用できる環境を整備する。

• ID 体系、コードリストの整備– 性別や地理座標フォーマットなど汎用的に使用されるコードリストを整備する。

• ドメイン語彙の整備

Page 32: 共通語彙基盤 コア語彙2(Ver 2.2)の紹介

ありがとうございました。