Машинное обучение для интеллектуализации ваших...

Tags:

Preview:

DESCRIPTION

Проводится обзор принципиальных задач машинного обучения и наиболее популярных программных пакетов и библиотек в этой области. Рассказывается об опыте использования средств искусственного интеллекта и искусственных нейронных сетей и их применения в приложениях (zzphoto.me, recognizz.it). Основной упор доклада сделан на специфику процесса разработки и иплементации в программные продукты функционала, содержащего искуственный интеллект. Приводится список типичных ошибок и практических советов для создания работоспособных интеллектуальных приложений. Будет полезен как опытным программистам, так и начинающим специалистам в этой области.

Citation preview

Машинное обучение

для интеллектуализаци

и ваших приложений

ZZ Photo Артем Чернодуб

Искусственный интеллект

1997 2001 2029 2035

Источники:• к/ф «Космическая одиссея 2001 года», 1968, реж.

С. Кубрик• к/ф «Терминатор», 1984, реж. Д. Кэмерон• к/ф «Я, робот», 2004, реж. А. Пройас

2 / 40

Нейронауки

𝑝 (𝑥|𝑦 )=𝑝 ( 𝑦|𝑥 )𝑝 (𝑥)

𝑝 (𝑦 )

Биологически-инспирированные модели

Машинное обучение

3 / 40

Машинное обучение• синтез алгоритмов из представленных

данных, «обучающей выборки»• эффективность работы

синтезированного алгоритма как главная мера качества

• круг задач искусственного интеллекта• математика как базовая научная

дисциплина (теория вероятности, случайные процессы, математическая статистика)

4 / 40

Виды машинного обучения

• регрессия (regression)• классификация (classification)• кластеризация (clusterization)• обучение с подкреплением

(reinforcement learning)• эволюционные алгоритмы (evolutionary

algorithms)

5 / 40

Регрессия – данныеx y

0.00 0.00

0.10 0.59

0.20 0.95

0.30 0.95

0.40 0.59

0.50 0.00

0.60 -0.59

0.70 -0.59

0.80 -0.95

0.90 1.006 / 40

Регрессия – решения

7 / 40

Классификация – ирисы Фишера

Iris versicolorIris setosa Iris virginica

8 / 40

Классификация – данныеДлина

чашелистника

Шириначашелистн

ика

Длина лепестка

Ширина лепестка

Вид ириса

4.3 3.0 1.1 0.1 setosa

4.4 2.9 1.4 0.2 setosa

4.4 3.0 1.3 0.2 setosa

4.9 2.5 4.5 1.7 virginica

5.6 2.8 4.9 2.0 virginica

5.0 2.0 3.5 1.0 versicolor

5.1 2.5 3.3 1.1 versicolor

9 / 40

Классификация – решение

10 / 40

Кластеризация

число классов заранее неизвестно

11 / 40

Кластеризация – решения

12 / 40

Распознавание текста

13 / 40

Распознавание лиц

14 / 40

Детекция морд котов

15 / 40

Дополненная реальность

16 / 40

Распознавание звука• распознавание

звуковых команд• распознавание

музыкальных жанров

• распознавание названий песен

• синтез новой музыки

17 / 40

Обработка естественных текстов

• системы машинного перевода• рекомендательные системы он-

лайн магазинов• таргетирование рекламы в

поисковых системах• распознавание спама

18 / 40

Биометрическая аутентификацияРазрешение доступа по:

• отпечаткам пальцев• радужной оболочке

глаза• клавиатурному

почерку• тембру голоса• рукописному

почерку• геометрии руки

19 / 40

и т.д.

20 / 40

Мы живем в мире Big DataДанные для компьютеров:

• в 2006 году было создано и сохранено 160 эксабайт (160х1018) информации

• в 2010 году было создано и сохранено 1 зетабайт (1021) информации

Пример: рост количества цифровых фото

21 / 40

Алгоритмы регрессии• Линейная регрессия (Linear Regression)• Многослойные персептроны (Multilayer

Perceptron)• RBF-нейросети (Radial Basis Function

Networks)• Машины опорных векторов для

регресии (Support Vector Regression, SVR)

22 / 40

Алгоритмы классификации• k ближайших соседей (k-Nearest

Neighbours)• Нейронные сети (Neural Networks = MLP

& RBF)• Машины опорных векторов (Support

Vector Machines)• Деревья решений (бустинг)

23 / 40

Алгоритмы кластеризации

• k средних (k-Means)• Иерархическая кластеризация

(Hierarhical Clustering)• Самоорганизующиеся карты Кохонена

(Self-Organizing Maps)• Гауссовские смешанные модели

(Gaussian Mixture Models)

24 / 40

Некоторые алгоритмы для предобработки данных

• общие, проблемно-независимые – PCA, LDA, Kernel PCA

• для изображений – SIFT, SURF, CHoG, Zernike Moments, Wavelets

• для звука – DFT, FFT, Mel cepstra, Wavelets

• для текста – ITF-DF, N-grams

25 / 40

Некоторые прикладные пакеты для машинного обучения• OpenCV – библиотека средств

машинного зрения.• PythonXY – пакет «все-в-1» популярных

методов машинного обучения.• LibSVM – надежная кросс-

платфроменная. библиотека машин опорных векторов.

• NetLab – библиотека «обычных» нейронных сетей.

• Theano – библиотека глубоких нейронных сетей.

26 / 40

Тезис

Машинное обучение – это технология, требующая специального подхода.

27 / 40

Правило № 1

Если есть возможность не использовать машинное обучение – не используйте его.

28 / 40

Правило № 2Не изобретайте велосипед.

29 / 40

Правило № 3

Тестируйте качество вашего алгоритма на опубликованных бенчмарках.

30 / 40

Правило № 4

Данные для обучения должны быть репрезентативными.

31 / 40

Правило № 5

Делите выборку на Train, Test и Validation.

Train Test Validation

32 / 40

Правило № 6Сложность выбранной эмпирической

модели должна быть адекватна сложности задачи.

33 / 40

Правило № 7

Применяйте регуляризацию.

34 / 40

Правило № 8

• нормируйте данные;• центрируйте данные; • в случае классификации,

перемешивайте выборку.

35 / 40

Правило № 9

Не нужно дообучать синтезированные эмпирические модели в режиме реального

времени.

36 / 40

Правило № 10Обучайте модели в MATLAB, Python и

подобных дружественных средах.

37 / 40

Литература

1. С. Осовский. Нейронные сети для обработки информации – пер. с польского. М.: Финансы и статистика, 2002. – 344с.

2. Bishop C.M. Pattern Recognition and Machine Learning. Springer, 2006 – 738 p.

3. С. Хайкин. Нейронные сети: полный курс. Вильямс, 2006.

38 / 40

Машинное обучение: перенос ответственности за работу алгоритма с программиста

на данные

39 / 40

… однажды.

Recommended