23
Машинное обучение Антон Шишкин Яндекс [email protected]

Машинное обучение в Яндексе

Embed Size (px)

DESCRIPTION

Антон Шишкин на Я.Студенте в УрФУ 28 апреля

Citation preview

Page 1: Машинное обучение в Яндексе

Машинное обучение

Антон ШишкинЯндекс[email protected]

Page 2: Машинное обучение в Яндексе

Что такое ML

● Подраздел ИИ– математическая статистика

– методы оптимизации

● На самом деле – построение модели данных

● Зачем– классификация, кластеризация, предсказание,

распознавание...

Page 3: Машинное обучение в Яндексе

Строим модель

S кв.м. / цена h(x) = a*x + b57 4280

58 4100

60 5350

62 4550

64 6350

72 4680

72 5900

80 6295

84 5991

86 5100

91 7500

Page 4: Машинное обучение в Яндексе

Функция ошибки

E (a)= 1

m∑0

m

(h (x i)− yi)2

E (a ,b)= 1m∑

0

m

(h(x i)− yi)2

Упростим

Расчет для а (b = 0)

a=a –α ddaE (a)

Расчет для a и b

a=a−α δδ aE (a ,b)

b=b−α δδbE (a ,b)

Page 5: Машинное обучение в Яндексе

Что такое ML 2

Модель

Новые данные

Обучающаясяпрограмма

Примеры данных

Page 6: Машинное обучение в Яндексе

Необходимые знания ● Матан● Статистика● Тервер● Линейная алгебра● Численные методы

Page 7: Машинное обучение в Яндексе

Некоторые проблемы ML

Page 8: Машинное обучение в Яндексе

Репрезентативная выборка данных

Page 9: Машинное обучение в Яндексе

Выбор способа ML

● Классификация● Метод опорных векторов● Нейронная сеть● k ближайших соседей● Решающее дерево● Решающий лес

Page 10: Машинное обучение в Яндексе

Переобучение

Page 11: Машинное обучение в Яндексе

Некоторые примеры

Page 12: Машинное обучение в Яндексе

Поиск полезных ископаемых

● Открытые месторождения● Геологоразведка

– минеральный состав

– сейсмологические данные

– что-то еще (я не настоящий геолог)

● Предсказываем наличие полезных ископаемых

Page 13: Машинное обучение в Яндексе

Генетические исследования

● Большая ДНК (много разных генов)● Болезнь кодируется сочетанием генов● Не знаем какие гены● Как искать:

– генетические карты больных и здоровых

– кластеризуем по экспрессии генов

– нашли diff в кластерах - PROFIT

Page 14: Машинное обучение в Яндексе

Почтовый спам

● Параметры письма– ключевые слова в тексте

– количество получателей

– Количество дубликатов письма

● Параметры отправителя– осмысленность адреса email

– массовость рассылок

– осмысленность писем

● Параметры сервера-отправителя– получаем от него только спам или что-то еще

Page 15: Машинное обучение в Яндексе

Поиск бозона Хиггса

● Детекторы частиц● Детекторы излучений● Миллиарды событий● Петабайты данных● Найти редкие нетипичные события

Page 16: Машинное обучение в Яндексе

Распознавание голоса

● Режем аудио на фреймы● Вероятность наличия фонемы в фрейме● Вероятность сочетания фонем● Вероятность сочетания слов● PROFIT

Page 17: Машинное обучение в Яндексе

Коллаборативная фильтрация

● Гипотеза: схожие пользователи обладают схожими потребностями

● Строим модели пользователей (классифицируем) по логам

● Новый пользователь: классифицируем согласно модели

● Показываем предложение● PROFIT!

Page 18: Машинное обучение в Яндексе

Поисковое ранжирование

● Поисковый запрос -> поисковый интент● Газиллион документов● Ссылочный граф● Интенты документов● Геопривязка пользователя и документа● Личные предпочтения пользователя● ML формула ранжирования -> PROFIT !

Page 19: Машинное обучение в Яндексе

Новостная агрегация

● Много источников похожих новостей● Дата публикации новости● Тематика новости● Геопривязка новости (где происходят

события)● Персоны● Статистика по текстам новостей

Page 20: Машинное обучение в Яндексе

Поиск девушки

● Сайт знакомств● Тысячи вопросов в анкете● Максимум можно ответить на 350● В чужой анкете видны ответы на те же

вопросы● Рейтинг совместимости рассчитывается из

ответов

Page 21: Машинное обучение в Яндексе

Поиск девушки: решение

● Фейковые рандомно заполненные анкеты● Майним чужие анкеты● Кластеризуем анкеты по ответам● Выбираем интересные кластера● Модифицируем анкету для максимизации

рейтинга совместимости с интересными кластерами

● PROFIT!

Page 22: Машинное обучение в Яндексе

Полезные ссылки● ML курс от Andrew Ng

https://class.coursera.org/ml-003/lecture● ШАД Яндекс

http://shad.yandex.ru/lectures/machine_learning.xml● machinelearning.ru● Соревнования

http://www.kaggle.com/competitions● http://www.gnu.org/software/octave/● http://scikit-learn.org/stable/● http://www.cs.waikato.ac.nz/ml/weka/

Page 23: Машинное обучение в Яндексе

Спасибо!