Upload
yandex
View
493.333
Download
3
Embed Size (px)
DESCRIPTION
Citation preview
Андрей Себрант, Директор по маркетингу сервисов
Что такое Big Data и чем они прекрасны
Для разогрева
Case: магазин Target и беременная девочка (США, 2012 год)
Еще для разогрева
Case: Jawbone UP
Есть такой браслет (точнее, 100 000)
60 лет каждую ночь
«Jawbone’s significant share of a growing market gives it quite a lot of data to mine. According to Rogati, the company collects the equivalent of 60 years of sleep data every night. Sleep, of course, is only a part of what the band monitors. For Rogati, Jawbone’s data trove was too good an opportunity to pass up. She joined the company this past summer from LinkedIn, another data-driven powerhouse.»
http://venturebeat.com/2013/11/06/how-jawbone-is-using-big-data-to-lead-the-personal-fitness-wearable-industry/
Включите фантазию Что можно придумать, если знать когда, сколько, насколько глубоко спят люди. С точностью до дня, с точностью до города.
7
Уточнение термина Big Data
Часто говорят про 3 V – дело не просто в размере
• Volume Действительно большие (хотя размер зависит от доступных ресурсов для их обработки)
• Variety Слабо структурированные и разнородные • Velocity Обрабатывать надо очень быстро (причем и результаты часто нужны оперативно, если речь об онлайновых сервисах)
8
Четыре самых продвинутых отрасли
В мире (но не обязательно у нас):
• Финансы • Медицина • Государство • High-‐tech и интернет-‐компании
Впрочем, и прочие подтягиваются
9
Ancestry.com: от рукописных данных до ДНК-анализа
http://wiki.yandex-team.ru/users/asebrant/BigDataSF-2013/.files/ancestry.pdf
Машинное���обучение
11
Неприятные свойства данных и что с ними делать
Данные часто неполны Данные содержат ошибки Данные очень разнородны Машинное обучение Нечеткие связи и соответствия Постоянно искать обратную связь
1. 2. 3.
Построение семейной истории человечества
Генеалогические деревья и установление родства
Миграция глобальная и внутри стран
Историческая картина демографии
17
• Относительная площадь лица на фотографии уже не столь очевидно влияет на вероятность контакта, и это – полезный инсайт
Оцифрованная романтика: eHarmony
Атом будущего
1. Дремучая: «Я так сказал!»
2. Продвинутая: «Мы провели A/B test»
3. Технологичная и современая: «Мы знаем, какую ты любишь»
История о цвете кнопки:���
Вернемся к братьям
Антропоморфизм – штука рискованная Следит ли за нами Большой Брат?
Есть дисциплина, называемая Machine Learning, машинное обучение
Как это работает?
МАШИННОЕ ОБУЧЕНИЕ В РЕКЛАМЕ
КАК НАЙТИ МОЮ
АУДИТОРИЮ?
Спам Поиск похожих картинок Распознавание рукописного текста Поиск Реклама
Мамы с детьми 0-3 года
[годовалый]
[ходунок]
[котофей]
[бебиблог]
[брокколи]
[дом2новости]
[джигурда]
On-line gamers
[dota] [кпд] [массовка] [cheat] [эмулятор] [варфэйс] [капа][паркур] [гайд] [дрифт]
[замужество] [партнерка] [прицел] [приворот]
Выпендрежники
Выпендрежники
[уильямс] [рафаэль] [инканто] [азур]
[бирюза] [топхотелс]
[татуаж] [пегий] [центробанк]
[старец] [нептун] [парадиз] [арго]
[slender] [ларедут] [вепрь]
33
Задача: найти на десктопе владельцев iPhone, iPad и Android
3 кампании: - Без таргетинга - С таргетингом Крипты - С таргетингом по логину
34
0,23
Все Android (login) Android (Crypta)
CTR
35
0,23
0,36
Все Android (login) Android (Crypta)
CTR
36
0,23
0,36 0,38
Все Android (login) Android (Crypta)
CTR
37
38
Уровень телесмотрения
- 99% россиян смотрят ТВ ежемесячно* - 30% пользователей Рунета проводят у экрана ТВ менее часа в день**
*По данным TNS России ** По данным OMI и TNS
39
Light TV: методология исследования
Анкетирование
• Анкета TNS • 4 вопроса
• Опрос проведен OMI
• 28’000 респондентов
Cookie matching OMI-‐Яндекс
• Совмещение панелистов OMI и пользователей Яндекса
Анализ поведения выборки в интернете
• Крипта • 200 факторов поведения
40
Heavy TV viewers Light TV viewers
«сбербанк», «коммунальный», «шарлотка», «выкройка»,
«биглион», «irr», «заработать»
«книга», «переводчик», «словарь», «формула»,
«японский», «французский», «немецкий», «такси»
Больше запросов кириллицей Много запросов латиницей
41
Heavy TV viewers Light TV viewers
«тнт», «дом-2», «телепрограмма», «стс»
«С++», «wi-fi», «фотошоп», «torrent»,
«adobe»
42
Heavy TV viewers Light TV viewers
«спартак», «цска», «пиво» «загранпаспорт», «авиабилет», «виза», «самолет», «аэропорт», «ржд»
43
Домашнее чтение
Большие данные. Революция, которая изменит то, как мы живем, работаем и мыслим Виктор Майер-Шенбергер, Кеннет Кукьер http://www.livelib.ru/book/1000755419
44
Data is new oil ������
Data is just like crude. It’s valuable, but if unrefined it cannot really be used. It has to be changed into gas, plastic, chemicals, etc., to create a valuable entity that drives profitable activity; so must data be broken down, analyzed for it to have value.
Michael Palmer, 2006���
Андрей Себрант
Спасибо! Вопросы?
asebrant@yandex-‐team.ru Twiyer: @asebrant Facebook: hyps://www.facebook.com/asebrant