Upload
romovpa
View
464
Download
7
Embed Size (px)
Citation preview
Машинноеобучениесэлементамикиберспорта
ПетрРомовЯндекс,МФТИ,ВШЭФКН
Какуюплощадьобъестпривязанныйкозелвквадратномогороде?
hMp://acm.Umus.ru/problem.aspx?space=1&num=1084
Какуюплощадьобъестпривязанныйкозелвквадратномогороде?
hMp://acm.Umus.ru/problem.aspx?space=1&num=1084
a
r
f(a, r) 7! S
Какуюплощадьобъестпривязанныйкозелвквадратномогороде?
hMp://acm.Umus.ru/problem.aspx?space=1&num=1084
a
r
f(a, r) 7! S
Какаяпогодабудетзавтра?
Исходныеданные Результат
Долгопрудный(55.9°N,37.5°E)2февраля2016
+1..+3Снег
Какаяпогодабудетзавтра?1. Знаниезаконовприроды:
уравнения,описывающиесостояниеатмосферы,движениевоздушныхпотоков
Какаяпогодабудетзавтра?1. Знаниезаконовприроды:
уравнения,описывающиесостояниеатмосферы,движениевоздушныхпотоков
2.Начальныеусловия:состояниеатмосферывначальныймоментвремени(сегодня)вразличныхточках
Какаяпогодабудетзавтра?
1. 2.
3.Алгоритмрешенияоченьбольшойсистемыуравнений+суперкомпьютер
Ктозатащиткатку?
Ктозатащиткатку?
Ктозатащиткатку?
Ктозатащиткатку?
Ктозатащиткатку?
Ктозатащиткатку?
Исходныеданные РезультатВседействияигроков:перемещенияпокарте,покупкаартефактов,боиит.д.Изменениеколичествазаработанногозолота,опытанапротяжениивремени…
Radiant
Задача:Попервым5игровымминутамопределить,какаякоманда(RadiantилиDire)выиграетматчвDota2.
Какподойтикзадаче?1. Правильногорешения(котороепройдетвсе
тесты)—несделаемНо,можемсделатьрешение,котороередкоошибается
Какподойтикзадаче?1. Правильногорешения(котороепройдетвсе
тесты)—несделаемНо,можемсделатьрешение,котороередкоошибается
2. Эвристики– наосновеопытаигрывDota2• «есликоманданабралапреимуществовзолотеболее
чемнаX,тоонавыиграет(скореевсего)»• «есликомандавыбраланеудачнуюкомбинацию
героев,тоонапроиграет»• …
Какподойтикзадаче?1. Правильногорешения(котороепройдетвсе
тесты)—несделаемНо,можемсделатьрешение,котороередкоошибается
2. Эвристики– наосновеопытаигрывDota2• «есликоманданабралапреимуществовзолотеболее
чемнаX,тоонавыиграет(скореевсего)»• «есликомандавыбраланеудачнуюкомбинацию
героев,тоонапроиграет»• …
– найтизакономерностиавтоматически• проанализировавмиллионыматчей,которыебыли
сыгранынапрошлойнеделе
Машинноеобучение
Входныеданные Ответ
345 1
223 0
...
925 1
Обучающаявыборкамножествопримероввходныхданныхиправильныхответов
Алгоритммашинногообучения Построеннаямодель
461
0
Машинноеобучение
Входныеданные Ответ
345 1
223 0
...
925 1
Обучающаявыборкамножествопримероввходныхданныхиправильныхответов
Алгоритммашинногообучения Построеннаямодель
461
0Признаковыеописаниячисловыевектора
фиксированнойдлины,вкоторыхзакодированався
входнаяинформация
Значенияцелевойпеременной
ответы,закодированныечислами
Новыевходныеданные
Предсказание
Ранжированиепоисковойвыдачинайденовиндексе(поискомподстроки)
Ранжированиепоисковойвыдачи
Признаки(запросаидокумента) Релевантность
34535234… 5
22366323.. 1
...
92536325… 3
ОбучающаявыборкаСоставляетсяспециальнымилюдьми—ассессорами
• естьлислово«купить»?• сколькословвзапросе?
• сколькословиззапросаестьвдокументе?• какчастовдокументевстречаютсясловаиззапроса?• какойдоменувеб-сайта?
• делаллипользовательпрограммистскиезапросы?
ПерсональноерадиоВЯндекс.Радионесколькомиллионовтреков,сотнитысячисполнителей.
Какойтреквключитьпользователю,чтобыонпоставиллайк?
Персональноерадио
Признаки(трекаипользователя) Лайкилинет?
34535234… +1(Лайк)
22366323.. -1(Дизлайк)
...
92536325… 0(Ничегонепоставил)
ПопулярностьЖанрДлительностьЕстьлиголос?Женскийилимужскойголос?
ОбучающаявыборкаИсториялайковидизлайковразличныхпользователей(сервисимеетмноголетнююисторию)
Какмногослушалтрекиэтогожанра?Какчастоприходитслушатьмузыку?Какоевремясуток?(поместномувремени)
Поисклицанаизображении
Поисклицанаизображении
1(Лицо)
0(Нелицо)
Фармацевтикаимедицина
• Поописаниюхимическогосоединенияпредсказать:будетлионовоздействоватьнараздражитель?
• Поисторииболезнейпациентапредсказать:какоелекарство(изсхожихпосвойствам)подействуетэффективнее?
ТяжелаяметаллургияСкольконеобходимоброситьвсплавдополнительноговещества,чтобыон
соответствовалГОСТу?Можносэкономить5–8%дополнительныхвеществ,вмасштабахзавода—несколькодесятковвагонов.
Обучающаявыборка:историяплавокзанескольколетфункционированиязавода.
Алгоритмымашинногообучения1.Решающиедеревья 2.Ансамбльизрешающихдеревьев
3.Линейнаямодель 4.Нейронныесети
Деревьярешений(decisiontrees)
Обучениедереварешений
Отличнаяиллюстрацияпринциповработыиобучениядереварешений:hMp://www.r2d3.us/
Ансамбльиздеревьеврешений• Проблемарешающихдеревьев
– Деревомалойвысотынеулавливаетвсезакономерности– Деревобольшойвысотысклонновыделятьложныезакономерности
• Решение:– Строитьбольшоечислоразныхдеревьев– Усреднятьихпредсказания/определятьответметодомголосования
• Каксделатьдеревьяразными?– Припостроениидереваиспользоватьслучайноеподмножествообучающихпримеров– Припостроениидереваиспользоватьслучайноеподмножествопризнаков– Строитьоченьнеглубокиедеревья,такчтобыкаждоеследующеедеревокорректировало
ошибкипредыдущих
Линейнаямодель
y(x;w) = w0 + w1x1 + w2x2 + · · ·+ wDxD
x = (x1, x2, . . . , xD) —признаки
y —правильныйответ
w = (w0, w1, . . . , wD) —неизвестныепараметрымодели
Модельпредсказания:
Обучениелинейноймодели
Оптимизацияпараметровпредсказательноймодели:
{(x1, y
1), (x2, y
2), . . . , (xN, y
N )}—обучающаявыборка(парынаборовпризнаковиправильныхответов)
NX
n=1
(y(xn;w)� y
n)2 ! minw
задачарешаетсяМетодомНаименьшихКвадратов(МНК)
Теперьвекторw—известен,можемделатьпредсказаниянановыхвходныхвекторахx:
y ⇡ y(x;w) = w0 + w1x1 + w2x2 + · · ·+ wDxD
Линейнаямодельинейронывходы—дендриты
выход—аксон
� —функцияактивации
Трехслойныйперсептрон
hj(x;Whidden) = �(whidden
j0 + x1whiddenj1 + · · ·+ xDw
hiddenjD )
Модельпредсказания:
y(h;W output) = �(woutput
0
+ h1
woutput
1
+ · · ·+ hDwoutput
D )
(W hidden,W output) —параметры,которыенеобходимообучить
Большеслоев
Нейронныесетидляраспознаванияизображений
Глубинноеобучение
• Оченьбольшиенейронныесети• Оченьмногопараметровдляобучения• Оченьамбициозныезадачи:создать«искусственныймозг»• Сложныеалгоритмыподбораоптимальныхпараметров• ПрограммированиенаGPU,илидажекластерахGPU
Соревнованияпоанализуданных
hMp://kaggle.com
Соревнованияпоанализуданных
Соревнованияпоанализуданных
Соревнованияпоанализуданных
Соревнованияпоанализуданных
Мировойрейтинганалитиковданных
РейтинговаясистемакакнаTopCoderилиCodeForces
Соревнованияпопрограммированию
(ACMICPC,CodeForces)
• Задачусоставилнектоболееумныйчемвы
• Правильноерешениезаведомосуществует,ионегознает
Соревнованияпоанализуданных
(Kaggle,DrivenData)
• Задачуставиткомпания,укоторойестьданные
• Решенияниктонезнает• Абсолютноправильного
решениянесуществует• Аналитикисоревнуются
качествомрешений• Решениезадачипринесет
пользу(ввидеденег,экономии,уникальногопродукта,сохраненныхжизней)
Шуткишутками…Ноктокаткузатащит?
НаборданныхизраспаршеныхреплеевреальныхматчейвDota2
hMps://kaggle.com/join/coursera_ml_dota2_contest
Шуткишутками…Акогонужнопикатьто?
hMps://kaggle.com/join/slava_sotone_dota2_pick
ПрогнозфинальныхматчейShanghaiMajor2016
• Хакатонпосоставлениюалгоритмов,предсказывающихикорректирующихпрогнозыврежимереальноговремени
• DotaScience.com
ФУПММФТИ,кафедраИС• Теорияобучениямашин• Мат.методыпрогнозированияФИВТМФТИ• Прикладнаястатистика• Введениевавтоматическую
обработкутекстов
ГдеучатанализуданныхВМКМГУ,кафедраММП• Мат.методыраспознавания
образов• Прикладнаястатистика• Графическиемодели
ФКНВШЭ,Специализация«Машинноеобучениеиприложения»• Машинноеобучение• Прикладнаястатистика• Анализтекстов• Анализизображений• Анализвременныхрядов• Машинноеобучениенабольшихданных• Численныеметодыванализеданных• Информационныйпоиск• Глубинноеобучение
Хочупрямосейчас
• Coursera– Курс«Введениевмашинноеобучение»,ВШЭ– Специализация«Машинноеобучениеианализданных»,МФТИ
• АвторыобоихкурсовпреподаютнаФКН
hMps://www.coursera.org/learn/vvedenie-mashinnoe-obucheniehMps://www.coursera.org/specializaUons/machine-learning-data-analysis
Контакты
• Еслихотитеещечто-тоузнать– ПетрРомов– DataScienUstвЯндексе– АспирантФИВТМФТИ– ПреподавательФКНВШЭ– e-mail:[email protected]
• Вопросы?