25
Всероссийская конференция «Инфокоммуникационные технологии в научных исследованиях» 14-16 ноября 2012 года, Таруса Особенности использования открытых данных в современных научных исследованиях и образовании Радченко Ирина Алексеевна кандидат технических наук, научный сотрудник Центра семантических технологий НИУ ВШЭ http://about.me/Irina.Radchenko НИУ ВШЭ, Москва, 2012

Всероссийская конференция « Инфокоммуникационные технологии в научных исследованиях»

  • Upload
    baina

  • View
    61

  • Download
    3

Embed Size (px)

DESCRIPTION

Всероссийская конференция « Инфокоммуникационные технологии в научных исследованиях» 14-16 ноября 2012 года, Таруса Особенности использования открытых данных в современных научных исследованиях и образовании. Радченко Ирина Алексеевна кандидат технических наук, научный сотрудник - PowerPoint PPT Presentation

Citation preview

Page 1: Всероссийская конференция « Инфокоммуникационные  технологии  в научных исследованиях»

Всероссийская конференция

«Инфокоммуникационные технологии

в научных исследованиях»14-16 ноября 2012 года, Таруса

Особенности использования открытых данных в современных

научных исследованиях и образованииРадченко Ирина Алексеевнакандидат технических наук, научный сотрудник

Центра семантических технологий НИУ ВШЭ

http://about.me/Irina.Radchenko

НИУ ВШЭ, Москва, 2012

Page 2: Всероссийская конференция « Инфокоммуникационные  технологии  в научных исследованиях»

Открытые данные во временной перспективе

НИУ ВШЭ, Москва, 2012 2

Page 3: Всероссийская конференция « Инфокоммуникационные  технологии  в научных исследованиях»

Открытые наборы научных данных

НИУ ВШЭ, Москва, 2012 3

World Bank

NASA

CERN

Page 4: Всероссийская конференция « Инфокоммуникационные  технологии  в научных исследованиях»

НИУ ВШЭ, Москва, 2012

Пример использования открытых геоданных

4

Page 5: Всероссийская конференция « Инфокоммуникационные  технологии  в научных исследованиях»

НИУ ВШЭ, Москва, 2012

Открытые государственные данные за рубежом

Цель: повысить открытость, доступность данных для граждан, способствовать распространению государственных данных

5

в США: http://www.data.gov/ http://www.utah.gov/data/ http://data.octo.dc.gov/ https://nycopendata.socrata.com/ http://dwexternal.co.mecklenburg.nc.us/ids/Nav_Reports.aspx/http://www.govtrack.us/http://openstates.org/

в Австралии:http://gov2.net.au/projects/index.html

в Великобритании: http://data.gov.uk/http://data.london.gov.uk/ http://openlylocal.com/councilshttp://www.mysociety.org/

в Канаде: http://www.toronto.ca/open/ https://data.edmonton.ca/ http://data.nanaimo.ca/ http://data.vancouver.ca/

в Швеции: http://www.opengov.se/data/

Page 6: Всероссийская конференция « Инфокоммуникационные  технологии  в научных исследованиях»

НИУ ВШЭ, Москва, 2012

Пятизвездочная модель открытых данных по Тиму Бернерсу-Ли

6

Источник: http://5stardata.info/, http://www.w3.org/DesignIssues/LinkedData.html

Page 7: Всероссийская конференция « Инфокоммуникационные  технологии  в научных исследованиях»

НИУ ВШЭ, Москва, 2012

Пятизвездочная модель открытых данных по Тиму Бернерсу-Ли

7Источник: http://www.w3.org/DesignIssues/LinkedData.html

★ Данные доступны в Вебе (в любом формате), но подпадают под лицензию Открытых Данных (Open Data) — http://www.nationalarchives.gov.uk/doc/open-government-licence/.

★★ Данные доступны в качестве машинообрабатываемых структурированных данных (например, в виде Excel-таблицы вместо отсканированного изображения таблицы).

★★★ Данные соответствуют двум звездам, плюс представлены в непроприетарном формате (например, в формате CSV вместо Excel-формата).

★★★★ Данные соответствуют трем звездам, плюс представлены в открытых стандартах консорциума W3C (RDF и SPARQL), предназначенных для идентификации данных.

★★★★★ Данные соответствуют четырем звездам, плюс они связаны с другими данными с учетом контекста их использования.

Page 8: Всероссийская конференция « Инфокоммуникационные  технологии  в научных исследованиях»

НИУ ВШЭ, Москва, 2012

Динамика развития Linked Open Data

8

Количество наборов LOD

Темпы нарастания объемов фактов

Источник: http://www.w3.org/wiki/SweoIG/TaskForces/CommunityProjects/LinkingOpenData

Время2007 2008 2009 2010

Page 9: Всероссийская конференция « Инфокоммуникационные  технологии  в научных исследованиях»

Пример использования LOD: проект DBpedia

НИУ ВШЭ, Москва, 2012 9Источник: http://wiki.dbpedia.org/Applications, http://talis-podcasts.s3.amazonaws.com/twt20080207_TimBL.html

DBpedia позволяет пользователям запрашивать информацию, основанную на отношениях и свойствах ресурсов проекта Wikipedia, в том числе ссылки на соответствующие базы данных.

DBpedia — проект, направленный на извлечение структурированной информации из данных, собранных в рамках проекта Wikipedia.

Page 10: Всероссийская конференция « Инфокоммуникационные  технологии  в научных исследованиях»

НИУ ВШЭ, Москва, 2012

Области использования Linked Open Data

Облако наборов LOD охватывает около 30 миллиардов триплетов и 500 миллионов связей

10

СМИГеография

ПубликацииСозданный

пользователями контент

Науки о жизни

Междисциплинарные области

Государственные данные

Источник: http://www.w3.org/wiki/SweoIG/TaskForces/CommunityProjects/LinkingOpenData

Page 11: Всероссийская конференция « Инфокоммуникационные  технологии  в научных исследованиях»

Связанность данных

Доступность данных

Машиночитаемость данных

НИУ ВШЭ, Москва, 2012

Преимущества использования Linked Open Data

11

Page 12: Всероссийская конференция « Инфокоммуникационные  технологии  в научных исследованиях»

НИУ ВШЭ, Москва, 2012

Стек Linked Open Data

12Источник: http://iradche.livejournal.com/3881.html

Page 13: Всероссийская конференция « Инфокоммуникационные  технологии  в научных исследованиях»

Следующий шаг: проект LOD2

НИУ ВШЭ, Москва, 2012 13Источник: http://lod2.eu/

Развитие проекта LOD2 в рамках 7 рамочной программы Европейского союза

Page 14: Всероссийская конференция « Инфокоммуникационные  технологии  в научных исследованиях»

OntoWiki – инструментарий для работы с моделью

данных RDF.

PoolParty – система управления тезаурусом и

редактирования контента в рамках концепции Semantic Web (включая text mining и

связанные данные).

Sig.ma – инструментарий для разработки Web of Data. RDF, RDFa или Microformats

(стандарт Web of Data). Sig.ma – браузер Semantic

Web.

Comprehensive Knowledge Archive Network (CKAN) –

каталог для наборов открытых данных.

D2R Server – инструментарий для

опубликования реляционных баз данных в

Semantic Web.

Dbpedia Extraction – получает

структурированную информацию из Wikipedia и делает ее машиночитаемой

и связанной.

DL-Learner – инструментарий для

мониторинга машинного обучения в OWL.

MonetDB – СУБД, поддерживающая

реляционные базы данных, XML и RDF данные.

SemMF – инструментарий для расчета схожести

объектов, подвергающихся связыванию. Представляет связанные объекты в виде

RDF-графа.

Стек разработок проекта LOD2

НИУ ВШЭ, Москва, 2012 14Источник: http://lod2.eu/

Page 15: Всероссийская конференция « Инфокоммуникационные  технологии  в научных исследованиях»

Стек разработок проекта LOD2

НИУ ВШЭ, Москва, 2012 15Источник: http://lod2.eu/

Silk Framework поддерживает публикацию RDF-данных из

разнородных информационных источников. Использует декларативны язык Silk - Link Specification Language

(Silk-LSL).

Sindice – инструментарий для объединения огромных

массивов связанных данных в единое информационное пространство связанных

данных.

Sparallax – интерфейс для реализации SPARQL-запросов,

основанных на Freebase Parallax.

Triplify обеспечивает перевод данных в RDF-формат.

OpenLink Virtuoso – база знаний и платформа

виртуализации, интегрирующая Data, Services и

Business Processes в рамках предприятия.

The Web Information Quality Assessment Framework (WIQA)

– инструментарий для аналитической обработки и

фильтрации данных, представляемых в рамках концепции Semantic Web.

Spatial Semantic Browers – приложение для просмотра геоданных в формате RDF.

LIMES – инструментарий для связывания данных в рамках

концепции Semantic Web.

Page 16: Всероссийская конференция « Инфокоммуникационные  технологии  в научных исследованиях»

Основные направления инициатив, направленных на открытие науки

НИУ ВШЭ, Москва, 2012 16

Открытие массивов научных данных

Создание электронных научных хранилищ и профильных поисковых сервисов

Разработка инструментов для совместной работы

Создание специализированных социальных сетей

Page 17: Всероссийская конференция « Инфокоммуникационные  технологии  в научных исследованиях»

Примеры использования наборов открытых данных в науке

НИУ ВШЭ, Москва, 2012 17

Genome Commons (http://genomecommons.org/) Связанные наборы данных из различных источников:dbSNP, dbGaP, PharmGKB, GeneTests, OMIM, MutationView и сотни специализированных баз данных.

TARDIS (http://www.tardis.edu.au/) Наборы данных по кристаллографии.

Page 18: Всероссийская конференция « Инфокоммуникационные  технологии  в научных исследованиях»

Примеры использования наборов открытых данных в науке

НИУ ВШЭ, Москва, 2012 18

Australian Social Science Data Archive (http://www.assda.edu.au/)

Council of European Social Science Data Archives (http://www.cessda.org/)

Page 19: Всероссийская конференция « Инфокоммуникационные  технологии  в научных исследованиях»

Примеры использования наборов открытых данных в науке

НИУ ВШЭ, Москва, 2012 19

National Radio Astronomy Observatory(https://archive.nrao.edu/archive/advquery.jsp/)

Social Science Data Archive(http://dataarchives.ss.ucla.edu/)

Page 20: Всероссийская конференция « Инфокоммуникационные  технологии  в научных исследованиях»

Электронные научные хранилища и профильные поисковые сервисы за рубежом

НИУ ВШЭ, Москва, 2012 20

ScienceDirect

EBSCO

WorldCat

JSTOR

CiteSeerX

Scopus

Page 21: Всероссийская конференция « Инфокоммуникационные  технологии  в научных исследованиях»

Электронные научные хранилища и профильные поисковые сервисы за рубежом

НИУ ВШЭ, Москва, 2012 21

Web of Science

MS Academic Search

arXiv

Google Books

Open Library

Inspec

Page 22: Всероссийская конференция « Инфокоммуникационные  технологии  в научных исследованиях»

Электронные научные хранилища и профильные поисковые сервисы в России

НИУ ВШЭ, Москва, 2012 22

eLibrary

VINITI Database RAS

eBdb

BookFi.org

Руконт

Page 23: Всероссийская конференция « Инфокоммуникационные  технологии  в научных исследованиях»

Разработка инструментов для совместной работы исследователей

НИУ ВШЭ, Москва, 2012 23

Figshare (http://figshare.com/)предоставляет исследователям следующие возможности: • быстрая публикация результатов исследований; • упрощенная процедура цитирования;• совместное использование результатов

заинтересованными исследователями.

Лицензия: Creative commons

Digital Science (http://www.digital-science.com/) предоставляет программные продукты для совместных научно-исследовательских работ.

Page 24: Всероссийская конференция « Инфокоммуникационные  технологии  в научных исследованиях»

Разработка инструментов для совместной работы исследователей

НИУ ВШЭ, Москва, 2012 24

Tools for the Citizen Scientist (NASA)предоставляет программные продукты для совместных научно-исследовательских работ.

Page 25: Всероссийская конференция « Инфокоммуникационные  технологии  в научных исследованиях»