46
Высшая школа экономики, Москва, 2013 www.hse.ru Радченко Ирина Алексеевна кандидат технических наук, доцент http://about.me/Irina.Radchenko http://iRadche.ru http://DataDrivenJournalism.ru Школа открытых данных 30 ноября 2013 года Обработка данных для построения цифровой истории в журналистике данных

Обработка данных для построения цифровой истории в журналистике данных

Embed Size (px)

DESCRIPTION

 

Citation preview

Page 1: Обработка данных для построения цифровой истории в журналистике данных

Высшая школа экономики, Москва, 2013

www.hse.ru

Радченко Ирина Алексеевнакандидат технических наук, доцентhttp://about.me/Irina.Radchenkohttp://iRadche.ruhttp://DataDrivenJournalism.ru

Школа открытых данных

30 ноября 2013 года

Обработка данных для построения цифровой истории в журналистике данных

Page 2: Обработка данных для построения цифровой истории в журналистике данных

Журналистика данных – это добыча, описание, курирование и публикация данных в общественных интересах.

(Джонатан Стрей – Jonathan Stray, профессиональный журналист и специалист в области информатики)

Журналистика данных – это зонтичный термин, который охватывает многое, включая в себя все новый и новый набор инструментов, техник и подходов к рассказыванию историй, описанию событий, созданию сюжетов. (Арон Пилхофер – Aron Pilhofer , New York Times)

Источник: http://ria.ru/files/book/_site/введение_2.html

Page 3: Обработка данных для построения цифровой истории в журналистике данных

Источник: http://www.theguardian.com/data

The Guardian

Page 4: Обработка данных для построения цифровой истории в журналистике данных

Источник: http://www.theguardian.com/news/datablog/interactive/2013/jan/14/all-our-datasets-index

The Guardian. Раздел с наборами данных

Page 5: Обработка данных для построения цифровой истории в журналистике данных

Источник: http://data.nytimes.com/

The New York Times. Раздел со связанными открытыми данных

Page 6: Обработка данных для построения цифровой истории в журналистике данных

Вручную (или в «полуавтоматизированном виде») при помощи техник, описанных на информационных ресурсах, посвященных журналистике данных, и в книгах по журналистике данных*

Варианты работы с открытыми данными

При помощи методов и средств анализа данных (Data Analysis)

* cм. список полезных ссылок в конце презентации

Page 7: Обработка данных для построения цифровой истории в журналистике данных

Цель анализа данных

Предоставить данные в таком виде, чтобы на их основе можно было бы принимать решение.

Page 8: Обработка данных для построения цифровой истории в журналистике данных

Слишком много информации

Помехи и неприятности

Недостаточно информации

Слишком много переменных, измеренных различными способами

Неправильно измеренные переменные

Page 9: Обработка данных для построения цифровой истории в журналистике данных

Решение

Сконструировать цифровую историю

Выявить зависимости между переменными

Найти всю недостающую информацию

Привести данные к единому виду

Page 10: Обработка данных для построения цифровой истории в журналистике данных

Этапы анализа данных

Постановка задачи

Определение идеального набора данных

Определение данных, к которым есть доступ

Получение данных

Очистка данных

Исследовательский анализ данных

Моделирование

Интерпретация полученного результата

Проверка результата

Описание результата, построение цифровой истории

Создание воспроизводимого программного кода

На основе источника: https://class.coursera.org/dataanalysis-002/class/index

Page 11: Обработка данных для построения цифровой истории в журналистике данных

Необходимо тщательно изучить данные

Постановка задачи

Сформулировать вопрос, на который можно дать ответ при помощи данных

Page 12: Обработка данных для построения цифровой истории в журналистике данных

Постановка задачи

ПримерФормулировка задачи (вопроса):Можно автоматически определять спам в емейлах?

На основе каких данных можно определять этот спам?- провайдер, адрес, откуда идет рассылка спама- имеется ли в письме вложение- в какое время пришло письмо

Page 13: Обработка данных для построения цифровой истории в журналистике данных

Состав идеального набора данных может зависеть от разных целей анализа данных

Определение идеального набора данных

1. Описательная характеристика.2. Исследовательская характеристика.3. Характеристика, полученная путем выведения

в зависимости от различных типов анализа.

Page 14: Обработка данных для построения цифровой истории в журналистике данных

ПримерМожно ли использовать количественные характеристики для определения спама?

Определение идеального набора данных

1. Характеристика, описывающая людей.2. Та или иная выборка.3. Тестовые данные.

Page 15: Обработка данных для построения цифровой истории в журналистике данных

Необходимо найти данные, к которым можно получить доступ

Определение данных, к которым есть доступ

1. Найти открытые данные в интернете.2. Купить данные.3. Удостовериться в возможности использования этих

данных.4. Сгенерировать данные самостоятельно.

Page 16: Обработка данных для построения цифровой истории в журналистике данных

Определение данных, к которым есть доступ

ПримерДанные Гугла закрыты. К ним нет доступа.Нужен альтернативный путь – поиск данных в интернете.

Page 17: Обработка данных для построения цифровой истории в журналистике данных

Определение данных, к которым есть доступ

Источник: http://archive.ics.uci.edu/ml/datasets/spambase

Page 18: Обработка данных для построения цифровой истории в журналистике данных

Необходимо всегда фиксировать:

Получение данных

1. Время получения данных из информационного источника.

2. Адрес (URL), откуда данные были получены.

Page 19: Обработка данных для построения цифровой истории в журналистике данных

Сырые данные нуждаются в очистке и предварительной подготовке

Очистка данных

Весь процесс необходимо фиксировать, чтобы можно было понять как именно данные были подготовлены.

Page 20: Обработка данных для построения цифровой истории в журналистике данных

Необходимо фиксировать источник данных (например: результаты опроса, выборка, случайная выборка)

Очистка данных

Нужно ли данные форматировать?Стоит ли разбить данные на несколько наборов данных?На сколько данные вообще пригодны для анализа?

Page 21: Обработка данных для построения цифровой истории в журналистике данных

Необходимо дать грамотное объяснение полученному результату.

Интерпретация полученного результата

Для этого нужно использовать простой понятный язык.

Page 22: Обработка данных для построения цифровой истории в журналистике данных

Интерпретация полученного результата

ПримерЛюбое письмо, в котором появляется символ $ чаще некоего порогового значения, является спамом.

Page 23: Обработка данных для построения цифровой истории в журналистике данных

Перепроверить весь процесс и все результаты анализа данных.

Проверка полученного результата

Вернуться и пройти по всем этапам:1. Постановка задачи.2. Источник данных.3. Обработка данных.4. Анализ данных.5. Полученное заключение.

Page 24: Обработка данных для построения цифровой истории в журналистике данных

Подумать об альтернативном анализе данных.

Проверка полученного результата

Page 25: Обработка данных для построения цифровой истории в журналистике данных

Необходимо записать всю цифровую историю от начала до конца.

Описание результата, построение цифровой истории

Каждый этап анализа должен содержать необходимую аргументацию.

В конечную цифровую историю не надо включать все варианты анализа, которые были произведены. Это излишне отвлекает внимание.

Page 26: Обработка данных для построения цифровой истории в журналистике данных

Создание воспроизводимого программного кода. Репозиторий The Guardian

Источник: https://github.com/guardian

Page 27: Обработка данных для построения цифровой истории в журналистике данных

Создание воспроизводимого программного кода. Репозиторий The New York Times

Источник: https://github.com/NYTimes

Page 28: Обработка данных для построения цифровой истории в журналистике данных

Создание воспроизводимого программного кода. Репозиторий Chicago Tribune

Источник: https://github.com/Financial-Times

Page 29: Обработка данных для построения цифровой истории в журналистике данных

Организация файлов для анализа данных

1. Данные1. Сырые данные2. Обработанные данные

2. Моделирование1. Визуальное представление данных в ходе

анализа данных2. Окончательно визуальное представление

данных3. Программный код

1. Сырой программный код2. Финальный программный код

4. Текстовые файлы1. Описание анализа данных2. Описание файлов

Page 30: Обработка данных для построения цифровой истории в журналистике данных

Получение данных

Обработка данных

Анализ данных

Представление данных

Процесс работы с открытыми данными

Page 31: Обработка данных для построения цифровой истории в журналистике данных

Получение данных

Обработка данных

Анализ данных

Представление данных

Процесс работы с открытыми данными

Page 32: Обработка данных для построения цифровой истории в журналистике данных

Excel

Google Spreadsheets

Open Refine

Обработка данных

Page 33: Обработка данных для построения цифровой истории в журналистике данных

Google Spreadsheets

Page 34: Обработка данных для построения цифровой истории в журналистике данных

Источник: https://docs.google.com/spreadsheet/ccc?key=0Asi05AgC7aRFdDFORHBjbXhPcWQxQkFieFNtM0JHX1E#gid=0

Работа с данными по выбросу углекислого газа в атмосферу

Page 35: Обработка данных для построения цифровой истории в журналистике данных

Open Refine

Page 36: Обработка данных для построения цифровой истории в журналистике данных

Бесплатное программное обеспечение

Совместим с большинством браузеров

Существует возможность работать в оффлайне

Нет необходимости в пересылке данных по интернету

Существует возможность работать с историей внесенных изменений

Существует возможность визуализации различных характеристик наборов данных

Существует возможность работать с данными различныхмашиночитаемых форматов

Преимущества Open Refine

Page 37: Обработка данных для построения цифровой истории в журналистике данных

Источник: http://openrefine.org/download.html

Page 38: Обработка данных для построения цифровой истории в журналистике данных

Запускается локально – http://127.0.0.1:3333/

Page 39: Обработка данных для построения цифровой истории в журналистике данных

Дальнейшие шаги

• Обучение на МООК (Массовых Открытых Онлайн Курсах)

• Участие в дата-экспедициях(на английском и русском языках)

Page 40: Обработка данных для построения цифровой истории в журналистике данных

Дальнейшие шаги

• Обучение на МООК (Массовых Открытых Онлайн Курсах)

• Участие в дата-экспедициях(на английском и русском языках)

Практика! Практика! Практика!

Page 41: Обработка данных для построения цифровой истории в журналистике данных

Запись во вторую дата-экспедицию

Дата-экспедиция пройдет с 9 по 22 декабря 2013 года

Page 42: Обработка данных для построения цифровой истории в журналистике данных

Запись во вторую дата-экспедицию

Дата-экспедиция пройдет с 9 по 22 декабря 2013 года

Page 43: Обработка данных для построения цифровой истории в журналистике данных

Полезные ссылки

1. Проект Европейского Центра Журналистики: http://DataDrivenJournalism.net/

2. Школа данных Фонда открытых знаний: http://schoolofdata.org/3. Журналистика данных (проект на русском языке):

http://DataDrivenJournalism.ru/4. Учебный курс «Data Analysis» (Jeff Leek) на Coursera:

https://class.coursera.org/dataanalysis-002/class/index/5. Учебный курс «How to Process, Analyze and Visualize Data» на MIT Open

Courseware: http://ocw.mit.edu/resources/res-6-009-how-to-process-analyze-and-visualize-data-january-iap-2012/

6. Simon Rogers. Facts are sacred. http://www.amazon.com/Facts-are-Sacred-Guardian-Shorts-ebook/dp/B006PI9PQG

7. The Data Journalism Handbook. http://www.amazon.com/Data-Journalism-Handbook-Jonathan-Gray-ebook/dp/B008KSAPG8/

Page 44: Обработка данных для построения цифровой истории в журналистике данных

Полезные ссылки

8. Nathan Yau. Visualize This: The FlowingData Guide to Design, Visualization, and Statistics. http://www.amazon.com/Visualize-This-FlowingData-Visualization-Statistics-ebook/dp/B005CCT19M/

9. Nate Silver. The Signal and the Noise: The Art and Science of Prediction. http://www.amazon.com/The-Signal-Noise-Science-Prediction-ebook/dp/B0097JYVAU/

10.Uri Bram. Thinking Statistically. http://www.amazon.com/Thinking-Statistically-Uri-Bram-ebook/dp/B005YOL2Z4/

11.David Folkenflik. Page One: Inside The New York Times and the Future of Journalism (Participant Media Guide). http://www.amazon.com/Page-One-Inside-Journalism-Participant-ebook/dp/B004Z2NQEQ/

Page 45: Обработка данных для построения цифровой истории в журналистике данных

Полезные ссылки

12.Mark S. Luckie. The Digital Journalist's Handbook. http://www.amazon.com/Digital-Journalists-Handbook-Mark-Luckie-ebook/dp/B005PZ6N2O/

13.Timothy C. Urdan. Statistics in Plain English. http://www.amazon.com/Statistics-Plain-English-Third-Timothy-ebook/dp/B004RM9VSY/

14.Charles Wheelan. Naked Statistics: Stripping the Dread from the Data. http://www.amazon.com/Naked-Statistics-Stripping-Dread-Data-ebook/dp/B007Q6XLF2/

15.Philipp K. Janert . Data Analysis with Open Source Tools. http://www.amazon.com/Data-Analysis-Open-Source-Tools-ebook/dp/B004FGMTYA/

16.Ruben Verborgh, Max De Wilde. Using OpenRefine. http://www.amazon.com/Using-OpenRefine-Ruben-Verborgh-ebook/dp/B00F3VNPN0/

Page 46: Обработка данных для построения цифровой истории в журналистике данных

Спасибо за внимание!http://iRadche.ru

http://about.me/Irina.Radchenko

http://DataDrivenJournalism.ru

http://iRadche.livejournal.com/

https://www.facebook.com/iRadche

@iRadche

http://www.slideshare.net/iRadche