Upload
-
View
504
Download
2
Embed Size (px)
Citation preview
Big Data с точки зрения конечного пользователя
Собака Павлова
Захар Кириллов
Принципиальная позиция автора сформировалась в ходе интервьюc пользователями, в различных ипостасях соприкасающихся с Big Data (от аналитиков и программистов до дизайнеров и потребителей), а также при чтении публицистических статей в популярных медиа и аналитических отчетов.
Откудадровишки?
Терминология
Big Data — цифровые данные (часто — слабоструктурированные), поступающие так быстро и в таких объемах, что возникают сложностис их хранением, обработкой, защитой и анализом традиционными методами.
Data Mining — интеллектуальный анализ данныхс целью выявления ранее неизвестных, но практически полезных закономерностей. Технологии: статистические методы, машинное обучение, искусственные нейронные сети.
миллионов сообщений
500 350 150миллионов фотографий
тысяч часов видео
25терабайтданных
У кого больше?
Каждые 24 часа!
Big Data в Enterprise
100ГБ данныхили 1 млн записей
в сутки
Из них лишь 1% представляет ценность для бизнеса.
Big Data в малом бизнесе
выбросить данные жалко или невозможно;
нанимать людей для их анализа нерационально;
разовая покупка железа или софта не спасает.
Ситуация, в которой:
Объем данных — понятие субъективное. У разных компаний — свои возможности«переварить» поступающие данные, свой предел «насыщения» ими.
Где рождаются большие данные? Кассовые операции в торговой сети.
Комментарии и «лайки» пользователей соцсети.
Поток звонков и соединений у телеком-оператора.
Сигналы датчиков «Интернета вещей», телематика.
Очередь e-mail на сервере интернет-провайдера.
Определение тематики и образов в потоковом видео.
Транзакции на валютной бирже и между банками.
Система бронирования билетов у перевозчиков.
Статистика посещаемости популярных сайтов.
Тренды
Объем рынка
Рынок РФ в 2015 году — $350–500 млн (2%) при росте 40% в год.
Проблемы рынка
Защита данных.
Ограниченный бюджет.
Нехватка специалистов
Технологические сложности.
Незрелость предприятия.
Видные игроки
Внедрения в России
Управление рисками, борьба с мошенничеством, сегментация и оценка кредитоспособности клиентов, прогнозирование очередей в отделениях, расчет бонусов для сотрудников, персонализация предложений клиентам.
Сегментация и прогнозирование оттока клиентов, анализ отзывовв соцсетях и на форумах.
Анализ поведения пользователей сайта, персонализация контента, предиктивный анализ потребительских привычек клиента для увеличения повторных продаж.
Оповещение людей, находящихся в зоне чрезвычайной ситуации, а также тех, кто туда может попасть; оптимизация работы колл-центра за счет прогнозирования причины обращения; оценка кредитоспособности абонентов.
Мобильная геоаналитика помогает правительству Москвы определиться с размещением новых магистралейи станций метро.
Прогнозирование нагрузкина сеть; анализ пассажиропотока, определение популярных маршрутови видов транспорта (совместный проект с РЖД).
Фильтрация спама, таргетинг рекламы, оптимизация работы техподдержки, анализ поведения пользователей.
Внедрение страховой телематикидля снижение убыточностипортфеля автострахования.
Управление товарными запасамидля сокращения среднего времени пребывания товара на полке.
Открытые данные
Правительство Москвы http://data.mos.ru/
Правительство Россииhttp://data.gov.ru/
С чего начать?
Отчетность → Аналитика → Big Data
Бизнес-цели
Конкурентное преимущество за счет выявления закономерностей.
Снижение затрат на ваша проблемная статья расходов .
Edutament (образование + развлечение)для клиентов, сотрудников и партнеров.
Инфографика — информационные поводы для СМИ.
Новые партнеры в лице государстваили других «труднодоступных» организаций.
Выход на новые рынки с информационными продуктами.
Пользовательские ожидания
Достоверность информации.
WOW-фактор — удивление результатом.
Визуализация — наглядность и понятность результата.
Интерактивность — возможность взаимодействовать с данными.
Персонализация — загрузка и выгрузка собственных массивов данных.
Защита личных данных от утечки, гарантия соблюдения ФЗ об их хранении и обработке.
Команда
Заказчик: ставит цель, выделяет ресурсы, принимает результат.
Руководитель проекта: отвечает за коммуникацию, планированиеи использование ресурсов.
Директор по использованию данных (Chief Data Officer, Data Chief): курирует всю работу по анализу данных — сбор, хранение, защиту и обработку; понимает предметную область, бизнес, технологии и юридические аспекты.
Математик-аналитик: использует методы и инструментарий Data Mining для проверки гипотез и выявления закономерностей.
ИТ-отдел: программисты, UX-дизайнер, сисадмин — реализуютзапросы всех вышеназванных.
Big Data «малой кровью»
Внутренний хакатон, «конвейер гипотез» — вместе с коллегамисделать домашнее задание и выяснить, какие данные можете собирать,
какие закономерности есть смысл пробовать в них обнаружить,для чего использовать в бизнесе?
Предложить задачу фрилансерам — на конкурсной основеза вознаграждение на сайте kaggle.com.
Обратиться к студентам — ВШЭ, МФТИ, МГУ, ИТМО, СПбГУ,МГТУ им. Баумана готовят специалистов в сфере анализа данных.
Поручить профессионалам — algomost.com, rubbles.ru, yandexdatafactory.com, doubledata.ru, datalaboratory.ru.