22
Высшая школа экономики, Москва, 2013 www.hse.ru Радченко Ирина Алексеевна кандидат технических наук, доцент http://about.me/Irina.Radchenko http://iRadche.ru Организационные и технологические подходы к публикации информации в форме открытых данных

Open Data

Embed Size (px)

Citation preview

Page 1: Open Data

Высшая школа экономики, Москва, 2013

www.hse.ru

Радченко Ирина Алексеевнакандидат технических наук, доцентhttp://about.me/Irina.Radchenkohttp://iRadche.ru

Организационные и технологические подходы

к публикации информации

в форме открытых данных

Page 2: Open Data

Методические рекомендации по публикации открытых данных

2

Источник: http://data.gov.ru/metodicheskie-rekomendacii-po-publikacii-otkrytyh-dannyh-versiya-30

Page 3: Open Data

Факторы, которые необходимо учитывать

3

Востребованность соответствующих наборов открытых данных потенциальными потребителями информации

Степень готовности, характеризующуюся наличием необходимых данных в электронном виде

Затраты на публикацию (финансовые, временные, трудовые)

Page 4: Open Data

Валидация и очистка наборов данных

4

Одна из важных проблем при публикации наборов данных –

наличие ошибок

Page 5: Open Data

Типичные ошибки в наборах данных

5

1. Смешивание различных форматов (временных, географических и т.д.)

Page 6: Open Data

Типичные ошибки в наборах данных

6

2. Различное представление одних и тех же значений (г., гор., город)

Page 7: Open Data

Типичные ошибки в наборах данных

7

3. Дублирование записей

Page 8: Open Data

Типичные ошибки в наборах данных

8

4. Использование разных размерностей

Page 9: Open Data

Типичные ошибки в наборах данных

9

5. Ошибки аббревиатур

Page 10: Open Data

10

Решение – использование инструментария для очистки данных

OpenRefine

Page 11: Open Data

Преимущества OpenRefine

11

Бесплатное программное обеспечение

Совместим со всеми браузерами

Существует возможность работать в оффлайне

Нет необходимости в пересылке данных по интернету

Существует возможность работать с историей внесенных изменений

Существует возможность визуализации различных характеристик наборов данных

Существует возможность работать с данными различныхмашиночитаемых форматов

Page 12: Open Data

Форматы открытых данных

12

Page 13: Open Data

Формат PDF (Portable Document Format)

13

Представление в электронном виде полиграфической продукции

Достоинства Недостаток

Представление документов в электронном виде

Мало пригоден для машинной обработки

Кроссплатформенность

Стандарт ISO 32000-1:2008

Много программного обеспечения (в том числе, свободного) для работы с данным форматом

Page 14: Open Data

Excel-формат

14

Представление данных в табличной форме

Представление данных в табличной форме

Пригодность для машинной обработки

Много программного обеспечения для работы с данным форматом

Page 15: Open Data

Формат CSV

15

Представление данных в табличной форме

Представление данных в табличной форме

Пригодность для машинной обработки, понятен человеку

Открытый формат данных

Много программного обеспечения (в том числе, онлайн-сервисов) для работы с данным форматом

Page 16: Open Data

Формат JSON (JavaScript Object Notation)

16

Текстовый формат обмена данными

Читается как компьютерами, так и людьми (хотя людям понять его сложнее, чем CSV)

Пригодность для машинной обработки

Может использоваться с любым языком программирования

Подходит для сериализации сложных структур данных

Page 17: Open Data

Формат XML (eXtensible Markup Language)

17

Читается как компьютерами, так и людьми

Рекомендован консорциумом W3C

Пригодность для машинной обработки

Удобен для обмена данными (а также документами) в интернете

Page 18: Open Data

Модель представления данных RDF

18

Пригодность для машинной обработки

Является частью Семантического веба(Semantic Web)

Используемые форматы данных: RDF/XML, RDF/JSON, RDFa, N-Triples, Turtle, N3

Использует словари, таксономии и онтологии

Page 19: Open Data

General Transit Feed Specification (GTFS)

19

Источник: http://www.gtfs-data-exchange.com/how-to-provide-open-data

Page 20: Open Data

Формат GeoJSON (спецификация)

20

Источник: http://geojson.org/

Page 21: Open Data

Формат GeoJSON (спецификация)

21

Источник: http://gis-lab.info/docs/geojson_ru.html

Page 22: Open Data

http://iRadche.livejournal.com/

https://www.facebook.com/iRadche

@iRadche

http://www.slideshare.net/iRadche

Спасибо за внимание!http://iRadche.ru

http://about.me/Irina.Radchenko