Upload
zzwolf
View
61.226
Download
3
Tags:
Embed Size (px)
DESCRIPTION
Проводится обзор принципиальных задач машинного обучения и наиболее популярных программных пакетов и библиотек в этой области. Рассказывается об опыте использования средств искусственного интеллекта и искусственных нейронных сетей и их применения в приложениях (zzphoto.me, recognizz.it). Основной упор доклада сделан на специфику процесса разработки и иплементации в программные продукты функционала, содержащего искуственный интеллект. Приводится список типичных ошибок и практических советов для создания работоспособных интеллектуальных приложений. Будет полезен как опытным программистам, так и начинающим специалистам в этой области.
Citation preview
Машинное обучение
для интеллектуализаци
и ваших приложений
ZZ Photo Артем Чернодуб
Искусственный интеллект
1997 2001 2029 2035
Источники:• к/ф «Космическая одиссея 2001 года», 1968, реж.
С. Кубрик• к/ф «Терминатор», 1984, реж. Д. Кэмерон• к/ф «Я, робот», 2004, реж. А. Пройас
2 / 40
Нейронауки
𝑝 (𝑥|𝑦 )=𝑝 ( 𝑦|𝑥 )𝑝 (𝑥)
𝑝 (𝑦 )
Биологически-инспирированные модели
Машинное обучение
3 / 40
Машинное обучение• синтез алгоритмов из представленных
данных, «обучающей выборки»• эффективность работы
синтезированного алгоритма как главная мера качества
• круг задач искусственного интеллекта• математика как базовая научная
дисциплина (теория вероятности, случайные процессы, математическая статистика)
4 / 40
Виды машинного обучения
• регрессия (regression)• классификация (classification)• кластеризация (clusterization)• обучение с подкреплением
(reinforcement learning)• эволюционные алгоритмы (evolutionary
algorithms)
5 / 40
Регрессия – данныеx y
0.00 0.00
0.10 0.59
0.20 0.95
0.30 0.95
0.40 0.59
0.50 0.00
0.60 -0.59
0.70 -0.59
0.80 -0.95
0.90 1.006 / 40
Регрессия – решения
7 / 40
Классификация – ирисы Фишера
Iris versicolorIris setosa Iris virginica
8 / 40
Классификация – данныеДлина
чашелистника
Шириначашелистн
ика
Длина лепестка
Ширина лепестка
Вид ириса
4.3 3.0 1.1 0.1 setosa
4.4 2.9 1.4 0.2 setosa
4.4 3.0 1.3 0.2 setosa
…
4.9 2.5 4.5 1.7 virginica
5.6 2.8 4.9 2.0 virginica
…
5.0 2.0 3.5 1.0 versicolor
5.1 2.5 3.3 1.1 versicolor
9 / 40
Классификация – решение
10 / 40
Кластеризация
число классов заранее неизвестно
11 / 40
Кластеризация – решения
12 / 40
Распознавание текста
13 / 40
Распознавание лиц
14 / 40
Детекция морд котов
15 / 40
Дополненная реальность
16 / 40
Распознавание звука• распознавание
звуковых команд• распознавание
музыкальных жанров
• распознавание названий песен
• синтез новой музыки
17 / 40
Обработка естественных текстов
• системы машинного перевода• рекомендательные системы он-
лайн магазинов• таргетирование рекламы в
поисковых системах• распознавание спама
18 / 40
Биометрическая аутентификацияРазрешение доступа по:
• отпечаткам пальцев• радужной оболочке
глаза• клавиатурному
почерку• тембру голоса• рукописному
почерку• геометрии руки
19 / 40
и т.д.
20 / 40
Мы живем в мире Big DataДанные для компьютеров:
• в 2006 году было создано и сохранено 160 эксабайт (160х1018) информации
• в 2010 году было создано и сохранено 1 зетабайт (1021) информации
Пример: рост количества цифровых фото
21 / 40
Алгоритмы регрессии• Линейная регрессия (Linear Regression)• Многослойные персептроны (Multilayer
Perceptron)• RBF-нейросети (Radial Basis Function
Networks)• Машины опорных векторов для
регресии (Support Vector Regression, SVR)
22 / 40
Алгоритмы классификации• k ближайших соседей (k-Nearest
Neighbours)• Нейронные сети (Neural Networks = MLP
& RBF)• Машины опорных векторов (Support
Vector Machines)• Деревья решений (бустинг)
23 / 40
Алгоритмы кластеризации
• k средних (k-Means)• Иерархическая кластеризация
(Hierarhical Clustering)• Самоорганизующиеся карты Кохонена
(Self-Organizing Maps)• Гауссовские смешанные модели
(Gaussian Mixture Models)
24 / 40
Некоторые алгоритмы для предобработки данных
• общие, проблемно-независимые – PCA, LDA, Kernel PCA
• для изображений – SIFT, SURF, CHoG, Zernike Moments, Wavelets
• для звука – DFT, FFT, Mel cepstra, Wavelets
• для текста – ITF-DF, N-grams
25 / 40
Некоторые прикладные пакеты для машинного обучения• OpenCV – библиотека средств
машинного зрения.• PythonXY – пакет «все-в-1» популярных
методов машинного обучения.• LibSVM – надежная кросс-
платфроменная. библиотека машин опорных векторов.
• NetLab – библиотека «обычных» нейронных сетей.
• Theano – библиотека глубоких нейронных сетей.
26 / 40
Тезис
Машинное обучение – это технология, требующая специального подхода.
27 / 40
Правило № 1
Если есть возможность не использовать машинное обучение – не используйте его.
28 / 40
Правило № 2Не изобретайте велосипед.
29 / 40
Правило № 3
Тестируйте качество вашего алгоритма на опубликованных бенчмарках.
30 / 40
Правило № 4
Данные для обучения должны быть репрезентативными.
31 / 40
Правило № 5
Делите выборку на Train, Test и Validation.
Train Test Validation
32 / 40
Правило № 6Сложность выбранной эмпирической
модели должна быть адекватна сложности задачи.
33 / 40
Правило № 7
Применяйте регуляризацию.
34 / 40
Правило № 8
• нормируйте данные;• центрируйте данные; • в случае классификации,
перемешивайте выборку.
35 / 40
Правило № 9
Не нужно дообучать синтезированные эмпирические модели в режиме реального
времени.
36 / 40
Правило № 10Обучайте модели в MATLAB, Python и
подобных дружественных средах.
37 / 40
Литература
1. С. Осовский. Нейронные сети для обработки информации – пер. с польского. М.: Финансы и статистика, 2002. – 344с.
2. Bishop C.M. Pattern Recognition and Machine Learning. Springer, 2006 – 738 p.
3. С. Хайкин. Нейронные сети: полный курс. Вильямс, 2006.
38 / 40
Машинное обучение: перенос ответственности за работу алгоритма с программиста
на данные
39 / 40
… однажды.