24
Области приложения семантических технологий семинар Центра семантических технологий НИУ ВШЭ и ЗАО «Авикомп Сервисез», 11 мая 2012 года Технологии для публикации данных в Semantic Web и их интеграции в единое международное пространство знаний Linked Open Data Радченко Ирина Алексеевна к.т.н., научный сотрудник Центра семантических технологий НИУ ВШЭ НИУ ВШЭ, Москва, 2012

Технологии для публикации данных в Semantic Web и их интеграции в единое международное пространство знаний

Embed Size (px)

DESCRIPTION

Технологии для публикации данных в Semantic Web и их интеграции в единое международное пространство знаний Linked Open Data

Citation preview

Page 1: Технологии для публикации данных в Semantic Web и их интеграции в единое международное пространство знаний

Области приложения семантических технологий семинар Центра семантических технологий НИУ ВШЭ и

ЗАО «Авикомп Сервисез», 11 мая 2012 года

Технологии для публикации данных

в Semantic Web и их интеграции в единое международное пространство знаний

Linked Open Data

Радченко Ирина Алексеевна

к.т.н., научный сотрудник

Центра семантических технологий НИУ ВШЭ

НИУ ВШЭ, Москва, 2012

Page 2: Технологии для публикации данных в Semantic Web и их интеграции в единое международное пространство знаний

НИУ ВШЭ, Москва, 2012

Содержание

1. Публикация данных в Semantic Web в виде наборов Linked Open Data

2. Российский проект по созданию наборов Linked Open Data

3. Перспективное направление – публикация государственных данных

2

Page 3: Технологии для публикации данных в Semantic Web и их интеграции в единое международное пространство знаний

Публикация данных в Semantic Web в виде наборов Linked Open Data

3 НИУ ВШЭ, Москва, 2012

Page 4: Технологии для публикации данных в Semantic Web и их интеграции в единое международное пространство знаний

НИУ ВШЭ, Москва, 2012

Публикация данных в Semantic Web

Данные представлены при помощи языка разметки HTML (HyperText Markup Language)

4

Данные понятны человеку, но непонятны компьютеру

HTML (текст)

Х

Page 5: Технологии для публикации данных в Semantic Web и их интеграции в единое международное пространство знаний

НИУ ВШЭ, Москва, 2012

Публикация данных в Semantic Web

Машиночитаемый формат обеспечивается моделью представления данных RDF (Resource Description Framework)

5

Данные понятны и человеку, и компьютеру

Page 6: Технологии для публикации данных в Semantic Web и их интеграции в единое международное пространство знаний

НИУ ВШЭ, Москва, 2012

Модель Resource Description Framework

Машиночитаемый формат обеспечивается моделью представления данных RDF (Resource Description Framework)

6

«Газпроме» работает в Иванов

Триплет

Модель RDF

Объект Предикат Субъект

Пример

Page 7: Технологии для публикации данных в Semantic Web и их интеграции в единое международное пространство знаний

НИУ ВШЭ, Москва, 2012

Связанные открытые данные – Linked Open Data

LOD (Linked Open Data)

7

Иванов Иванов

тот же

Связи повышают ценность данных

Новости Биографии

Page 8: Технологии для публикации данных в Semantic Web и их интеграции в единое международное пространство знаний

НИУ ВШЭ, Москва, 2012

Публикация открытых данных в формате LOD

8

Разработан международным

консорциумом W3C

Обеспечивает простоту интеграции

данных из разных источников

Читается не только людьми, но и

компьютерами

В него преобразуются любые данные

(структурированные и неструктурированные)

Обеспечивает связывание данных

из различных источников

LOD (Linked Open Data)

Page 9: Технологии для публикации данных в Semantic Web и их интеграции в единое международное пространство знаний

НИУ ВШЭ, Москва, 2012

Динамика развития Linked Open Data

9

Количество наборов LOD

Темпы нарастания объемов фактов

Источник: http://www.w3.org/wiki/SweoIG/TaskForces/CommunityProjects/LinkingOpenData

Время 2007 2008 2009 2010

Page 10: Технологии для публикации данных в Semantic Web и их интеграции в единое международное пространство знаний

НИУ ВШЭ, Москва, 2012

Области использования Linked Open Data

Облако наборов LOD охватывает около 30 миллиардов триплетов и 500 миллионов связей

10

СМИ География

Публикации Созданный

пользователями контент

Науки о жизни

Междисциплинарные области

Государственные данные

Источник: http://www.w3.org/wiki/SweoIG/TaskForces/CommunityProjects/LinkingOpenData

Page 11: Технологии для публикации данных в Semantic Web и их интеграции в единое международное пространство знаний

Российский проект по созданию публичного ресурса открытых данных

в области науки и техники, интегрированного в единое международное пространство знаний Linked Open Data

11 НИУ ВШЭ, Москва, 2012

Page 12: Технологии для публикации данных в Semantic Web и их интеграции в единое международное пространство знаний

Разработка проекта LOD Центром семантических технологий совместно с компанией ЗАО «Авикомп Сервисез»

12 НИУ ВШЭ, Москва, 2012

Цели Создать наборы LOD в области науки и техники и

интегрировать их в международное пространство знаний

Создать программно-аппаратный комплекс для поддержки LOD

Отработать технологию формирования наборов LOD для последующего тиражирования

Интернет

БД Документы

Разнородные источники исходных данных

Программно-аппаратный

комплекс

Наборы LOD с данными по научно-технической

тематике

Нано- техно- логии

Мате- матика

Наборы LOD, опубликованные

в Интернете

Page 13: Технологии для публикации данных в Semantic Web и их интеграции в единое международное пространство знаний

Перспективное направление – использование технологии Linked Open Data для публикации государственных данных

13 НИУ ВШЭ, Москва, 2012

Page 14: Технологии для публикации данных в Semantic Web и их интеграции в единое международное пространство знаний

НИУ ВШЭ, Москва, 2012

Области использования Linked Open Data

Облако наборов LOD охватывает около 30 миллиардов триплетов и 500 миллионов связей

14

СМИ География

Публикации Созданный

пользователями контент

Науки о жизни

Междисциплинарные области

Государственные данные

Источник: http://www.w3.org/wiki/SweoIG/TaskForces/CommunityProjects/LinkingOpenData

Page 15: Технологии для публикации данных в Semantic Web и их интеграции в единое международное пространство знаний

НИУ ВШЭ, Москва, 2012

Открытые государственные данные за рубежом

Цель: повысить открытость, доступность данных для населения, способствовать распространению государственной информации

15

в США: http://www.data.gov/ http://www.utah.gov/data/ http://data.octo.dc.gov/ https://nycopendata.socrata.com/ http://dwexternal.co.mecklenburg.nc.us/ids/Nav_Reports.aspx/ http://www.govtrack.us/ http://openstates.org/ в Австралии: http://gov2.net.au/projects/index.html

в Великобритании: http://data.gov.uk/ http://data.london.gov.uk/ http://openlylocal.com/councils http://www.mysociety.org/ в Канаде: http://www.toronto.ca/open/ https://data.edmonton.ca/ http://data.nanaimo.ca/ http://data.vancouver.ca/ в Швеции: http://www.opengov.se/data/

Page 16: Технологии для публикации данных в Semantic Web и их интеграции в единое международное пространство знаний

Открытые государственные данные за рубежом

Набор данных для мониторинга уровня озона (Агентство по охране окружающей среды, http://data-gov.tw.rpi.edu/demo/exhibit/demo-8-castnet.php)

Информация о банкротстве публичных акционерных компаний (Комиссия по ценным бумагам и биржам США, http://www.sec.gov/open/datasets.shtml#bankruptcy)

Статистика по музейным и библиотечным услугам (Институт музейных и библиотечных услуг, http://www.imls.gov/research/data_analysis_tools.aspx)

Статистика потребления электроэнергии по 7 городам с населением около полумиллиона человек (Министерство энергетики США и Бюро переписи США, http://en.openei.org/apps/mashathon2010/)

Правительством США опубликованы сотни наборов данных в формате LOD

НИУ ВШЭ, Москва, 2012 16

Page 17: Технологии для публикации данных в Semantic Web и их интеграции в единое международное пространство знаний

Открытые государственные данные за рубежом

Германия

• Данные по сводкам происшествий (публикуются полицией Берлина). Используется сервисом Crimeblips, который визуализирует на карте данные по криминальной статистике

Венгрия • Публичный каталог Национальной библиотеки Венгрии

Швеция • Ресурс «Шведское культурное наследие» (содержит в формате связанных данных

3,4 млн. объектов)

НИУ ВШЭ, Москва, 2012 17

Page 18: Технологии для публикации данных в Semantic Web и их интеграции в единое международное пространство знаний

Пример стоимости проектов, связанных с открытыми государственными данными

НИУ ВШЭ, Москва, 2012

Название проекта Стоим. (млн $)

Описание

Data.Gov (basic functionality)

3,00 Сайт позволяет общественности найти, скачать и использовать машиночитаемые данные, собранные органами исполнительной власти. Способствует развитию отчетности, вовлечению граждан в жизнь государства и улучшает процесс управления федеральными данными.

Data.Gov (innovative functionality)

2,50

FedSpace 5,00 Позволяет государственным служащим совместно работать над одними документами, с помощью одних инструментов. Объединяет тех, "кто знает", с теми, "кто хочет знать".

Citizen Services Dashboard

5,00 Определение показателей обслуживания клиентов наиважнейших гражданских сервисов для повышения прозрачности и качества, обеспечения подотчетности предоставляемых услуг.

USASpending.gov and dashboards

9,50 Предоставление данных о расходах в соответствии с Законом о необходимости отчетности и прозрачности Федерального финансирования (FFATA)

18 Источник: Report to the Committee on Homeland Security and Governmental Affairs, U.S. Senate. ELECTRONIC GOVERNMENT. September 2011

Page 19: Технологии для публикации данных в Semantic Web и их интеграции в единое международное пространство знаний

НИУ ВШЭ, Москва, 2012

Открытые государственные данные в России

19

Надо максимально открывать информацию, которая накапливается в ведомственных базах данных. <...> Кстати, такой информации <…> часто

не хватает нашим компаниям, причем прежде всего малому и

среднему бизнесу при выстраивании долгосрочных планов и определении

инвестиционных приоритетов

Page 20: Технологии для публикации данных в Semantic Web и их интеграции в единое международное пространство знаний

Публикация государственных данных

в России

НИУ ВШЭ, Москва, 2012 20 Источник – OpenGovData.Ru

Page 21: Технологии для публикации данных в Semantic Web и их интеграции в единое международное пространство знаний

Данные об оказанных медицинских услугах в рамках обязательного медицинского

страхования г. Москвы

21 НИУ ВШЭ, Москва, 2012

Характеристика предметной области

• Более 11 млн. застрахованных

• Более 30 млн. счетов от лечебно-профилактических учреждений в месяц

• Ежегодный объем данных около 1.5 Терабайт

• Увеличение единой базы данных в среднем на 50 млн. записей в месяц

Содержание данных

• Список оказанных услуг

• Фамилия, имя, отчество пациента

• Диагноз по МКБ-10

• Фамилия, имя, отчество врача

• Наименование лечебно-профилактического учреждения

Page 22: Технологии для публикации данных в Semantic Web и их интеграции в единое международное пространство знаний

Открытые связанные данные сферы здравоохранения

НИУ ВШЭ, Москва, 2012

22

Данные об оказанных медицинских услугах

в рамках обязательного медицинского страхования

г. Москвы

Данные страховых медицинских организаций

Данные лечебно-профилактических

учреждений

Данные мониторинга

Данные единой медицинской

информационной автоматизированной

системы

Данные общегородских

регистров

Отзывы и рейтинги

Данные федеральных

регистров

… … …

Page 23: Технологии для публикации данных в Semantic Web и их интеграции в единое международное пространство знаний

Варианты создания сервисов на основе данных сферы здравоохранения

НИУ ВШЭ, Москва, 2012 23

Пациент Научный сотрудник

Управленец

Врач

Сервисы для сферы бизнеса

Сервисы для научных сотрудников

Сервисы для граждан

Сервисы мониторинга и статистики процессов

в здравоохранении

• Выбор лечебно-профилактического учреждения, врача и страховой медицинской организации • Совместимость лекарств с другими лекарствами, состояниями, заболеваниями и аллергиями • Аптеки, цены на лекарства • …

• Оперативное выявление тенденций в динамике показателей здравоохранения • Исследование эффективности реализуемых программ • Отслеживание качества работы медучреждений по отзывам населения • Анализ опыта других регионов стран • …

• Всесторонний и постоянный сбор информации по научным статьям, их авторам, учреждениям и т.д. • Свод статистики по разным параметрам и темам исследований • Составление научных отчетов и определение тенденций • …

Сервисы поддержки принятия решений

• Уточнение диагноза • Индивидуальный подбор тактики лечения • Совместимость лекарств • Прогнозирование развития заболевания • Разработка профилактических мероприятий и новых способов лечения • …

• Анализ рынка • Какие исследования проводятся? • Какие результаты достигнуты? • Каков спрос на результаты? • Анализ работы компаний • …

Page 24: Технологии для публикации данных в Semantic Web и их интеграции в единое международное пространство знаний