Upload
irina-radchenko
View
1.059
Download
2
Embed Size (px)
DESCRIPTION
Технологии для публикации данных в Semantic Web и их интеграции в единое международное пространство знаний Linked Open Data
Citation preview
Области приложения семантических технологий семинар Центра семантических технологий НИУ ВШЭ и
ЗАО «Авикомп Сервисез», 11 мая 2012 года
Технологии для публикации данных
в Semantic Web и их интеграции в единое международное пространство знаний
Linked Open Data
Радченко Ирина Алексеевна
к.т.н., научный сотрудник
Центра семантических технологий НИУ ВШЭ
НИУ ВШЭ, Москва, 2012
НИУ ВШЭ, Москва, 2012
Содержание
1. Публикация данных в Semantic Web в виде наборов Linked Open Data
2. Российский проект по созданию наборов Linked Open Data
3. Перспективное направление – публикация государственных данных
2
Публикация данных в Semantic Web в виде наборов Linked Open Data
3 НИУ ВШЭ, Москва, 2012
НИУ ВШЭ, Москва, 2012
Публикация данных в Semantic Web
Данные представлены при помощи языка разметки HTML (HyperText Markup Language)
4
Данные понятны человеку, но непонятны компьютеру
HTML (текст)
Х
НИУ ВШЭ, Москва, 2012
Публикация данных в Semantic Web
Машиночитаемый формат обеспечивается моделью представления данных RDF (Resource Description Framework)
5
Данные понятны и человеку, и компьютеру
НИУ ВШЭ, Москва, 2012
Модель Resource Description Framework
Машиночитаемый формат обеспечивается моделью представления данных RDF (Resource Description Framework)
6
«Газпроме» работает в Иванов
Триплет
Модель RDF
Объект Предикат Субъект
Пример
НИУ ВШЭ, Москва, 2012
Связанные открытые данные – Linked Open Data
LOD (Linked Open Data)
7
Иванов Иванов
тот же
Связи повышают ценность данных
Новости Биографии
НИУ ВШЭ, Москва, 2012
Публикация открытых данных в формате LOD
8
Разработан международным
консорциумом W3C
Обеспечивает простоту интеграции
данных из разных источников
Читается не только людьми, но и
компьютерами
В него преобразуются любые данные
(структурированные и неструктурированные)
Обеспечивает связывание данных
из различных источников
LOD (Linked Open Data)
НИУ ВШЭ, Москва, 2012
Динамика развития Linked Open Data
9
Количество наборов LOD
Темпы нарастания объемов фактов
Источник: http://www.w3.org/wiki/SweoIG/TaskForces/CommunityProjects/LinkingOpenData
Время 2007 2008 2009 2010
НИУ ВШЭ, Москва, 2012
Области использования Linked Open Data
Облако наборов LOD охватывает около 30 миллиардов триплетов и 500 миллионов связей
10
СМИ География
Публикации Созданный
пользователями контент
Науки о жизни
Междисциплинарные области
Государственные данные
Источник: http://www.w3.org/wiki/SweoIG/TaskForces/CommunityProjects/LinkingOpenData
Российский проект по созданию публичного ресурса открытых данных
в области науки и техники, интегрированного в единое международное пространство знаний Linked Open Data
11 НИУ ВШЭ, Москва, 2012
Разработка проекта LOD Центром семантических технологий совместно с компанией ЗАО «Авикомп Сервисез»
12 НИУ ВШЭ, Москва, 2012
Цели Создать наборы LOD в области науки и техники и
интегрировать их в международное пространство знаний
Создать программно-аппаратный комплекс для поддержки LOD
Отработать технологию формирования наборов LOD для последующего тиражирования
Интернет
БД Документы
Разнородные источники исходных данных
Программно-аппаратный
комплекс
Наборы LOD с данными по научно-технической
тематике
Нано- техно- логии
Мате- матика
Наборы LOD, опубликованные
в Интернете
Перспективное направление – использование технологии Linked Open Data для публикации государственных данных
13 НИУ ВШЭ, Москва, 2012
НИУ ВШЭ, Москва, 2012
Области использования Linked Open Data
Облако наборов LOD охватывает около 30 миллиардов триплетов и 500 миллионов связей
14
СМИ География
Публикации Созданный
пользователями контент
Науки о жизни
Междисциплинарные области
Государственные данные
Источник: http://www.w3.org/wiki/SweoIG/TaskForces/CommunityProjects/LinkingOpenData
НИУ ВШЭ, Москва, 2012
Открытые государственные данные за рубежом
Цель: повысить открытость, доступность данных для населения, способствовать распространению государственной информации
15
в США: http://www.data.gov/ http://www.utah.gov/data/ http://data.octo.dc.gov/ https://nycopendata.socrata.com/ http://dwexternal.co.mecklenburg.nc.us/ids/Nav_Reports.aspx/ http://www.govtrack.us/ http://openstates.org/ в Австралии: http://gov2.net.au/projects/index.html
в Великобритании: http://data.gov.uk/ http://data.london.gov.uk/ http://openlylocal.com/councils http://www.mysociety.org/ в Канаде: http://www.toronto.ca/open/ https://data.edmonton.ca/ http://data.nanaimo.ca/ http://data.vancouver.ca/ в Швеции: http://www.opengov.se/data/
Открытые государственные данные за рубежом
Набор данных для мониторинга уровня озона (Агентство по охране окружающей среды, http://data-gov.tw.rpi.edu/demo/exhibit/demo-8-castnet.php)
Информация о банкротстве публичных акционерных компаний (Комиссия по ценным бумагам и биржам США, http://www.sec.gov/open/datasets.shtml#bankruptcy)
Статистика по музейным и библиотечным услугам (Институт музейных и библиотечных услуг, http://www.imls.gov/research/data_analysis_tools.aspx)
Статистика потребления электроэнергии по 7 городам с населением около полумиллиона человек (Министерство энергетики США и Бюро переписи США, http://en.openei.org/apps/mashathon2010/)
Правительством США опубликованы сотни наборов данных в формате LOD
НИУ ВШЭ, Москва, 2012 16
Открытые государственные данные за рубежом
Германия
• Данные по сводкам происшествий (публикуются полицией Берлина). Используется сервисом Crimeblips, который визуализирует на карте данные по криминальной статистике
Венгрия • Публичный каталог Национальной библиотеки Венгрии
Швеция • Ресурс «Шведское культурное наследие» (содержит в формате связанных данных
3,4 млн. объектов)
НИУ ВШЭ, Москва, 2012 17
Пример стоимости проектов, связанных с открытыми государственными данными
НИУ ВШЭ, Москва, 2012
Название проекта Стоим. (млн $)
Описание
Data.Gov (basic functionality)
3,00 Сайт позволяет общественности найти, скачать и использовать машиночитаемые данные, собранные органами исполнительной власти. Способствует развитию отчетности, вовлечению граждан в жизнь государства и улучшает процесс управления федеральными данными.
Data.Gov (innovative functionality)
2,50
FedSpace 5,00 Позволяет государственным служащим совместно работать над одними документами, с помощью одних инструментов. Объединяет тех, "кто знает", с теми, "кто хочет знать".
Citizen Services Dashboard
5,00 Определение показателей обслуживания клиентов наиважнейших гражданских сервисов для повышения прозрачности и качества, обеспечения подотчетности предоставляемых услуг.
USASpending.gov and dashboards
9,50 Предоставление данных о расходах в соответствии с Законом о необходимости отчетности и прозрачности Федерального финансирования (FFATA)
18 Источник: Report to the Committee on Homeland Security and Governmental Affairs, U.S. Senate. ELECTRONIC GOVERNMENT. September 2011
НИУ ВШЭ, Москва, 2012
Открытые государственные данные в России
19
Надо максимально открывать информацию, которая накапливается в ведомственных базах данных. <...> Кстати, такой информации <…> часто
не хватает нашим компаниям, причем прежде всего малому и
среднему бизнесу при выстраивании долгосрочных планов и определении
инвестиционных приоритетов
Публикация государственных данных
в России
НИУ ВШЭ, Москва, 2012 20 Источник – OpenGovData.Ru
Данные об оказанных медицинских услугах в рамках обязательного медицинского
страхования г. Москвы
21 НИУ ВШЭ, Москва, 2012
Характеристика предметной области
• Более 11 млн. застрахованных
• Более 30 млн. счетов от лечебно-профилактических учреждений в месяц
• Ежегодный объем данных около 1.5 Терабайт
• Увеличение единой базы данных в среднем на 50 млн. записей в месяц
Содержание данных
• Список оказанных услуг
• Фамилия, имя, отчество пациента
• Диагноз по МКБ-10
• Фамилия, имя, отчество врача
• Наименование лечебно-профилактического учреждения
Открытые связанные данные сферы здравоохранения
НИУ ВШЭ, Москва, 2012
22
Данные об оказанных медицинских услугах
в рамках обязательного медицинского страхования
г. Москвы
Данные страховых медицинских организаций
Данные лечебно-профилактических
учреждений
Данные мониторинга
Данные единой медицинской
информационной автоматизированной
системы
Данные общегородских
регистров
Отзывы и рейтинги
Данные федеральных
регистров
… … …
Варианты создания сервисов на основе данных сферы здравоохранения
НИУ ВШЭ, Москва, 2012 23
Пациент Научный сотрудник
Управленец
Врач
Сервисы для сферы бизнеса
Сервисы для научных сотрудников
Сервисы для граждан
Сервисы мониторинга и статистики процессов
в здравоохранении
• Выбор лечебно-профилактического учреждения, врача и страховой медицинской организации • Совместимость лекарств с другими лекарствами, состояниями, заболеваниями и аллергиями • Аптеки, цены на лекарства • …
• Оперативное выявление тенденций в динамике показателей здравоохранения • Исследование эффективности реализуемых программ • Отслеживание качества работы медучреждений по отзывам населения • Анализ опыта других регионов стран • …
• Всесторонний и постоянный сбор информации по научным статьям, их авторам, учреждениям и т.д. • Свод статистики по разным параметрам и темам исследований • Составление научных отчетов и определение тенденций • …
Сервисы поддержки принятия решений
• Уточнение диагноза • Индивидуальный подбор тактики лечения • Совместимость лекарств • Прогнозирование развития заболевания • Разработка профилактических мероприятий и новых способов лечения • …
• Анализ рынка • Какие исследования проводятся? • Какие результаты достигнуты? • Каков спрос на результаты? • Анализ работы компаний • …