Обработка данных для построения цифровой истории в...

Preview:

DESCRIPTION

 

Citation preview

Высшая школа экономики, Москва, 2013

www.hse.ru

Радченко Ирина Алексеевнакандидат технических наук, доцентhttp://about.me/Irina.Radchenkohttp://iRadche.ruhttp://DataDrivenJournalism.ru

Школа открытых данных

30 ноября 2013 года

Обработка данных для построения цифровой истории в журналистике данных

Журналистика данных – это добыча, описание, курирование и публикация данных в общественных интересах.

(Джонатан Стрей – Jonathan Stray, профессиональный журналист и специалист в области информатики)

Журналистика данных – это зонтичный термин, который охватывает многое, включая в себя все новый и новый набор инструментов, техник и подходов к рассказыванию историй, описанию событий, созданию сюжетов. (Арон Пилхофер – Aron Pilhofer , New York Times)

Источник: http://ria.ru/files/book/_site/введение_2.html

Источник: http://www.theguardian.com/data

The Guardian

Источник: http://www.theguardian.com/news/datablog/interactive/2013/jan/14/all-our-datasets-index

The Guardian. Раздел с наборами данных

Источник: http://data.nytimes.com/

The New York Times. Раздел со связанными открытыми данных

Вручную (или в «полуавтоматизированном виде») при помощи техник, описанных на информационных ресурсах, посвященных журналистике данных, и в книгах по журналистике данных*

Варианты работы с открытыми данными

При помощи методов и средств анализа данных (Data Analysis)

* cм. список полезных ссылок в конце презентации

Цель анализа данных

Предоставить данные в таком виде, чтобы на их основе можно было бы принимать решение.

Слишком много информации

Помехи и неприятности

Недостаточно информации

Слишком много переменных, измеренных различными способами

Неправильно измеренные переменные

Решение

Сконструировать цифровую историю

Выявить зависимости между переменными

Найти всю недостающую информацию

Привести данные к единому виду

Этапы анализа данных

Постановка задачи

Определение идеального набора данных

Определение данных, к которым есть доступ

Получение данных

Очистка данных

Исследовательский анализ данных

Моделирование

Интерпретация полученного результата

Проверка результата

Описание результата, построение цифровой истории

Создание воспроизводимого программного кода

На основе источника: https://class.coursera.org/dataanalysis-002/class/index

Необходимо тщательно изучить данные

Постановка задачи

Сформулировать вопрос, на который можно дать ответ при помощи данных

Постановка задачи

ПримерФормулировка задачи (вопроса):Можно автоматически определять спам в емейлах?

На основе каких данных можно определять этот спам?- провайдер, адрес, откуда идет рассылка спама- имеется ли в письме вложение- в какое время пришло письмо

Состав идеального набора данных может зависеть от разных целей анализа данных

Определение идеального набора данных

1. Описательная характеристика.2. Исследовательская характеристика.3. Характеристика, полученная путем выведения

в зависимости от различных типов анализа.

ПримерМожно ли использовать количественные характеристики для определения спама?

Определение идеального набора данных

1. Характеристика, описывающая людей.2. Та или иная выборка.3. Тестовые данные.

Необходимо найти данные, к которым можно получить доступ

Определение данных, к которым есть доступ

1. Найти открытые данные в интернете.2. Купить данные.3. Удостовериться в возможности использования этих

данных.4. Сгенерировать данные самостоятельно.

Определение данных, к которым есть доступ

ПримерДанные Гугла закрыты. К ним нет доступа.Нужен альтернативный путь – поиск данных в интернете.

Определение данных, к которым есть доступ

Источник: http://archive.ics.uci.edu/ml/datasets/spambase

Необходимо всегда фиксировать:

Получение данных

1. Время получения данных из информационного источника.

2. Адрес (URL), откуда данные были получены.

Сырые данные нуждаются в очистке и предварительной подготовке

Очистка данных

Весь процесс необходимо фиксировать, чтобы можно было понять как именно данные были подготовлены.

Необходимо фиксировать источник данных (например: результаты опроса, выборка, случайная выборка)

Очистка данных

Нужно ли данные форматировать?Стоит ли разбить данные на несколько наборов данных?На сколько данные вообще пригодны для анализа?

Необходимо дать грамотное объяснение полученному результату.

Интерпретация полученного результата

Для этого нужно использовать простой понятный язык.

Интерпретация полученного результата

ПримерЛюбое письмо, в котором появляется символ $ чаще некоего порогового значения, является спамом.

Перепроверить весь процесс и все результаты анализа данных.

Проверка полученного результата

Вернуться и пройти по всем этапам:1. Постановка задачи.2. Источник данных.3. Обработка данных.4. Анализ данных.5. Полученное заключение.

Подумать об альтернативном анализе данных.

Проверка полученного результата

Необходимо записать всю цифровую историю от начала до конца.

Описание результата, построение цифровой истории

Каждый этап анализа должен содержать необходимую аргументацию.

В конечную цифровую историю не надо включать все варианты анализа, которые были произведены. Это излишне отвлекает внимание.

Создание воспроизводимого программного кода. Репозиторий The Guardian

Источник: https://github.com/guardian

Создание воспроизводимого программного кода. Репозиторий The New York Times

Источник: https://github.com/NYTimes

Создание воспроизводимого программного кода. Репозиторий Chicago Tribune

Источник: https://github.com/Financial-Times

Организация файлов для анализа данных

1. Данные1. Сырые данные2. Обработанные данные

2. Моделирование1. Визуальное представление данных в ходе

анализа данных2. Окончательно визуальное представление

данных3. Программный код

1. Сырой программный код2. Финальный программный код

4. Текстовые файлы1. Описание анализа данных2. Описание файлов

Получение данных

Обработка данных

Анализ данных

Представление данных

Процесс работы с открытыми данными

Получение данных

Обработка данных

Анализ данных

Представление данных

Процесс работы с открытыми данными

Excel

Google Spreadsheets

Open Refine

Обработка данных

Google Spreadsheets

Источник: https://docs.google.com/spreadsheet/ccc?key=0Asi05AgC7aRFdDFORHBjbXhPcWQxQkFieFNtM0JHX1E#gid=0

Работа с данными по выбросу углекислого газа в атмосферу

Open Refine

Бесплатное программное обеспечение

Совместим с большинством браузеров

Существует возможность работать в оффлайне

Нет необходимости в пересылке данных по интернету

Существует возможность работать с историей внесенных изменений

Существует возможность визуализации различных характеристик наборов данных

Существует возможность работать с данными различныхмашиночитаемых форматов

Преимущества Open Refine

Источник: http://openrefine.org/download.html

Запускается локально – http://127.0.0.1:3333/

Дальнейшие шаги

• Обучение на МООК (Массовых Открытых Онлайн Курсах)

• Участие в дата-экспедициях(на английском и русском языках)

Дальнейшие шаги

• Обучение на МООК (Массовых Открытых Онлайн Курсах)

• Участие в дата-экспедициях(на английском и русском языках)

Практика! Практика! Практика!

Запись во вторую дата-экспедицию

Дата-экспедиция пройдет с 9 по 22 декабря 2013 года

Запись во вторую дата-экспедицию

Дата-экспедиция пройдет с 9 по 22 декабря 2013 года

Полезные ссылки

1. Проект Европейского Центра Журналистики: http://DataDrivenJournalism.net/

2. Школа данных Фонда открытых знаний: http://schoolofdata.org/3. Журналистика данных (проект на русском языке):

http://DataDrivenJournalism.ru/4. Учебный курс «Data Analysis» (Jeff Leek) на Coursera:

https://class.coursera.org/dataanalysis-002/class/index/5. Учебный курс «How to Process, Analyze and Visualize Data» на MIT Open

Courseware: http://ocw.mit.edu/resources/res-6-009-how-to-process-analyze-and-visualize-data-january-iap-2012/

6. Simon Rogers. Facts are sacred. http://www.amazon.com/Facts-are-Sacred-Guardian-Shorts-ebook/dp/B006PI9PQG

7. The Data Journalism Handbook. http://www.amazon.com/Data-Journalism-Handbook-Jonathan-Gray-ebook/dp/B008KSAPG8/

Полезные ссылки

8. Nathan Yau. Visualize This: The FlowingData Guide to Design, Visualization, and Statistics. http://www.amazon.com/Visualize-This-FlowingData-Visualization-Statistics-ebook/dp/B005CCT19M/

9. Nate Silver. The Signal and the Noise: The Art and Science of Prediction. http://www.amazon.com/The-Signal-Noise-Science-Prediction-ebook/dp/B0097JYVAU/

10.Uri Bram. Thinking Statistically. http://www.amazon.com/Thinking-Statistically-Uri-Bram-ebook/dp/B005YOL2Z4/

11.David Folkenflik. Page One: Inside The New York Times and the Future of Journalism (Participant Media Guide). http://www.amazon.com/Page-One-Inside-Journalism-Participant-ebook/dp/B004Z2NQEQ/

Полезные ссылки

12.Mark S. Luckie. The Digital Journalist's Handbook. http://www.amazon.com/Digital-Journalists-Handbook-Mark-Luckie-ebook/dp/B005PZ6N2O/

13.Timothy C. Urdan. Statistics in Plain English. http://www.amazon.com/Statistics-Plain-English-Third-Timothy-ebook/dp/B004RM9VSY/

14.Charles Wheelan. Naked Statistics: Stripping the Dread from the Data. http://www.amazon.com/Naked-Statistics-Stripping-Dread-Data-ebook/dp/B007Q6XLF2/

15.Philipp K. Janert . Data Analysis with Open Source Tools. http://www.amazon.com/Data-Analysis-Open-Source-Tools-ebook/dp/B004FGMTYA/

16.Ruben Verborgh, Max De Wilde. Using OpenRefine. http://www.amazon.com/Using-OpenRefine-Ruben-Verborgh-ebook/dp/B00F3VNPN0/

Спасибо за внимание!http://iRadche.ru

http://about.me/Irina.Radchenko

http://DataDrivenJournalism.ru

http://iRadche.livejournal.com/

https://www.facebook.com/iRadche

@iRadche

http://www.slideshare.net/iRadche

Recommended