Machine

1

О ДИСТАНЦИОННОМ КУРСЕ ПО МАШИННОМУ ОБУЧЕНИЮ

Столяревская А.Л.Международный Соломонов университет,

Восточноукраинский филиал, г. Харьков, Украина

2

Постановка проблемы

При обучении дисциплине искусственный интеллект основной трудностью является подбор тем из очень большого количества направлений и подобластей искусственного интеллекта.

Одной из обязательных тем является машинное обучение.

3

Машинное обучение как самостоятельная дисциплина

Машинное обучение как самостоятельная дисциплина появилась из работ в области искусственного интеллекта, что дало новые возможности для обработки баз данных и больших наборов данных с ростом автоматизации Веб, приложений в области обработки естественного языка, приложений в области компьютерного зрения, а также понимания самого процесса обучения человека.

4

Машинное обучение

Машинное обучение (Machine Learning) - обширный подраздел искусственного интеллекта, изучающий методы построения алгоритмов, способных обучаться.

Машинное обучение находится на стыке математической статистики, методов оптимизации и дискретной математики, но имеет также и собственную специфику, связанную с проблемами вычислительной эффективности и переобучения.

Многие методы индуктивного обучения разрабатывались как альтернатива классическим статистическим подходам.

Многие методы тесно связаны с извлечением информации, интеллектуальным анализом данных.

5

Дистанционный курс Machine Learning

Поддержкой курса по искусственному интеллекту могут являться материалы дистанционного курса Стенфордского университета по машинному обучению, который сориентирован на многочисленные приложения.

6

7

Курс Machine Learning. Приглашение

8

Два типа обучения

Различают два типа обучения. Обучение по прецедентам, или индуктивное

обучение, основано на выявлении закономерностей в эмпирических данных.

Дедуктивное обучение предполагает формализацию знаний экспертов и их перенос в компьютер в виде базы знаний.

Дедуктивное обучение принято относить к области экспертных систем, поэтому термины машинное обучение и обучение по прецедентам можно считать синонимами.

9

Задачи курсаКлассическими задачами, решаемыми с помощью машинного

обучения, считаются: классификация, кластеризация, регрессия, понижение размерности данных и их визуализация.

Основные понятия и обозначенияДанные в задачах обучения по прецедентамМодели алгоритмов и методы обученияФункционалы качества

Обобщающая способность и переобучение

Примеры прикладных задачЗадачи классификацииЗадачи регрессииЗадачи кластеризацииЗадачи ранжирования

10

Задача обучения по прецедентам

11

Объекты и признаки

12

Ответы и типы задач

13

Модель алгоритмов

14

Метод обучения

15

Функционалы качества

16

Сведение задачи обучения к задаче оптимизации

17

Примеры прикладных задач

Примеры прикладных задач:Регрессия – выполнить прогноз стоимости

жилой недвижимости;

Классификация - предсказать по результатам двух тестов, пройдут ли микрочипы контроль качества.

18

Линейная и множественная регрессии

19

Оценка значимости коэффициентов регрессии

• Имеется возможность оценить значимость коэффициентов регрессии, а также построить доверительный интервал для коэффициентов регрессии.

• Проверить значимость коэффициентов регрессии – значит установить, достаточна ли величина оценки для статистически обоснованного вывода о том, что коэффициент регрессии отличен от нуля.

20

Логистическая регрессия

21

Точность классификации

22

Классификация спамаМногие почтовые службы обеспечивают сегодня спам-фильтры, которые

могут классифицировать сообщения как спам или не-спам с высокой точностью. Свой собственный фильтр спама можно построить, используя метод опорных векторов.

При этом следует обучить классификатор определять, является ли данная электронная почта спамом (у = 1) или не-спамом (у = 0).

Каждое испытуемое письмо необходимо преобразовать в функцию вектора х Rn.

Образец спама представлен на рисунке:

23

Предобработка

24

Извлечение свойств из сообщения электронной почты

В частности, свойство хi{0; 1} для электронной почты соответствует следующему: хi = 1, если i-е слово есть в электронной почте, и хi = 0, если i-го слова нет в электронной почте.

Для обучения классификатора специальный файл spamTrain.mat содержал 4000 обучающих примеров спама и не спама, а файл spamTest.mat содержал 1000 тестовых примеров.

25

Пример предобработки

26

Результат работы классификатора

27

Вход в курс Machine Learning

28

Краткое описание курса

• Первый открытый курс продолжительностью 10 недель проходил осенью 2011 года.

• Учебный материал состоял из 16 лекций, 18 тестов, 8 упражнений по программированию.

• Упражнения по программированию в среде математического пакета Octave были отличным дополнением к лекциям и тестам.

29

Инструктором курса является Эндрю Нг, один из создателей робота STAIR

30

Stanford Artificial Intelligence Robot

31

Обучение робота

32

Обучение - это изменение в системе…

33

Другие ссылки:

http://www.youtube.com/watch?v=vgEFC8Eb6i4&feature=player_embedded#!

http://www.youtube.com/watch?v=_migLQ802Go&feature=player_embedded#!

http://www.youtube.com/watch?v=vgEFC8Eb6i4&feature=player_embedded




http://www.youtube.com/watch?v=_migLQ802Go&feature=player_embedded




34

Спасибо за внимание

Documents

Machine