Upload
irina-radchenko
View
143
Download
2
Embed Size (px)
Citation preview
Высшая школа экономики, Москва, 2013
www.hse.ru
Радченко Ирина Алексеевнакандидат технических наук, доцентhttp://about.me/Irina.Radchenkohttp://iRadche.ru
Организационные и технологические подходы
к публикации информации
в форме открытых данных
Методические рекомендации по публикации открытых данных
2
Источник: http://data.gov.ru/metodicheskie-rekomendacii-po-publikacii-otkrytyh-dannyh-versiya-30
Факторы, которые необходимо учитывать
3
Востребованность соответствующих наборов открытых данных потенциальными потребителями информации
Степень готовности, характеризующуюся наличием необходимых данных в электронном виде
Затраты на публикацию (финансовые, временные, трудовые)
Валидация и очистка наборов данных
4
Одна из важных проблем при публикации наборов данных –
наличие ошибок
Типичные ошибки в наборах данных
5
1. Смешивание различных форматов (временных, географических и т.д.)
Типичные ошибки в наборах данных
6
2. Различное представление одних и тех же значений (г., гор., город)
Типичные ошибки в наборах данных
7
3. Дублирование записей
Типичные ошибки в наборах данных
8
4. Использование разных размерностей
Типичные ошибки в наборах данных
9
5. Ошибки аббревиатур
10
Решение – использование инструментария для очистки данных
OpenRefine
Преимущества OpenRefine
11
Бесплатное программное обеспечение
Совместим со всеми браузерами
Существует возможность работать в оффлайне
Нет необходимости в пересылке данных по интернету
Существует возможность работать с историей внесенных изменений
Существует возможность визуализации различных характеристик наборов данных
Существует возможность работать с данными различныхмашиночитаемых форматов
Форматы открытых данных
12
Формат PDF (Portable Document Format)
13
Представление в электронном виде полиграфической продукции
Достоинства Недостаток
Представление документов в электронном виде
Мало пригоден для машинной обработки
Кроссплатформенность
Стандарт ISO 32000-1:2008
Много программного обеспечения (в том числе, свободного) для работы с данным форматом
Excel-формат
14
Представление данных в табличной форме
Представление данных в табличной форме
Пригодность для машинной обработки
Много программного обеспечения для работы с данным форматом
Формат CSV
15
Представление данных в табличной форме
Представление данных в табличной форме
Пригодность для машинной обработки, понятен человеку
Открытый формат данных
Много программного обеспечения (в том числе, онлайн-сервисов) для работы с данным форматом
Формат JSON (JavaScript Object Notation)
16
Текстовый формат обмена данными
Читается как компьютерами, так и людьми (хотя людям понять его сложнее, чем CSV)
Пригодность для машинной обработки
Может использоваться с любым языком программирования
Подходит для сериализации сложных структур данных
Формат XML (eXtensible Markup Language)
17
Читается как компьютерами, так и людьми
Рекомендован консорциумом W3C
Пригодность для машинной обработки
Удобен для обмена данными (а также документами) в интернете
Модель представления данных RDF
18
Пригодность для машинной обработки
Является частью Семантического веба(Semantic Web)
Используемые форматы данных: RDF/XML, RDF/JSON, RDFa, N-Triples, Turtle, N3
Использует словари, таксономии и онтологии
General Transit Feed Specification (GTFS)
19
Источник: http://www.gtfs-data-exchange.com/how-to-provide-open-data
Формат GeoJSON (спецификация)
20
Источник: http://geojson.org/
Формат GeoJSON (спецификация)
21
Источник: http://gis-lab.info/docs/geojson_ru.html
http://iRadche.livejournal.com/
https://www.facebook.com/iRadche
@iRadche
http://www.slideshare.net/iRadche
Спасибо за внимание!http://iRadche.ru
http://about.me/Irina.Radchenko