20
Классификация и регрессия (продолжение) Храброва М.О.

Классификация и регрессия

  • Upload
    chipo

  • View
    54

  • Download
    2

Embed Size (px)

DESCRIPTION

Классификация и регрессия. (продолжение) Храброва М.О. Алгоритм покрытия . Алгоритм заключается в построении деревьев решений для каждого класса по отдельности. Пример. Подбор контактных линз. - PowerPoint PPT Presentation

Citation preview

Page 1: Классификация и регрессия

Классификация и регрессия

(продолжение)

Храброва М.О.

Page 2: Классификация и регрессия

Алгоритм покрытия. Алгоритм заключается в построении деревьев решений для каждого класса по отдельности.

Page 3: Классификация и регрессия

Пример. Подбор контактных линзНужно построить правило для определения условий, при которых необходимо

рекомендовать жесткие линзы: если (?) то рекомендация = жесткиеВыполним оценку каждой независимой переменной и всех их возможных

значений: возраст = юным - 2/8;возраст = пожилой - 1/8; возраст = старческий - 1/8; предписание = близорукость - 3/12; предписание = дальнозоркость - 1/12; астигматизм = нет - 0/12; астигматизм = да - 4/12; степень износа низкая - 0/12; степень износа = нормальная - 4/12. Выбираем переменную и значение с максимальной оценкой астигматизм =да.

Таким образом, получаем уточненное правило следующего вида: если (астигматизм = да и ?) то рекомендация = жесткие.

Page 4: Классификация и регрессия

Пример. Подбор контактных линз

Выполним повторную оценку для оставшихся независимых переменных и их значений, но уже на новом множестве:

• возраст = юный - 2/4; • возраст = пожилой - 1/4; • возраст = старческий - 1/4; • предписание = близорукость - 3/6; • предписание = дальнозоркость - 1/6; • степень износа = низкая - 0/6; • степень износа = нормальная - 4/6. • После уточнения получим правило и множество, представленное в

табл. 3: если (астигматизм = да и степень износа = нормальная) то

рекомендация = жесткие.

Page 5: Классификация и регрессия

Пример. Подбор контактных линз

• Так как в полученном множестве все еще остаются объекты, не относящиеся к классу жесткий, то необходимо выполнить уточнение:

• возраст юный - 2/2; • возраст пожилой - 1/2; • возраст старческий - 1/2; • предписание близорукость - 3/3; • предписание дальнозоркость - 1/3.Очевидно, что уточненное правило будет иметь следующий вид: если

(астигматизм = да и степень износа = нормальная и предписание близорукость) то рекомендация = жесткие.

Однако в полученном подмножестве отсутствует один из объектов, относящихся к классу жесткие, поэтому необходимо решить, какое из последних двух правил более приемлемо для аналитика.

Page 6: Классификация и регрессия

Методы построения математических функций

Page 7: Классификация и регрессия

Метод наименьших квадратов Линейные функции множества F имеют вид:

Задача заключается в отыскании таких коэффициентов , чтобы удовлетворить условие:

При решении задачи регрессии коэффициенты можно вычислить, используя квадратичную функцию потерь и множество линейных функций F:

Необходимо найти решение следующей задачи:

Page 8: Классификация и регрессия

Метод наименьших квадратов

• Вычисляя производную R(f) по и вводя обозначение , получаем, что минимум достижим при условии:

• Решением этого выражения будет:

• Откуда и получаются искомые коэффициенты . Рассмотренный пример иллюстрирует поиск оптимальной функции f методом наименьших квадратов.

Page 9: Классификация и регрессия

Нелинейные методы • Нелинейные модели лучше классифицируют объекты, однако их

построение более сложно. В простейшем случае построение таких функций сводится к построению линейных моделей. Для этого исходное пространство объектов преобразуется к новому. В новом пространстве строится линейная функция, которая в исходном пространстве является нелинейной. Для использования построенной функции выполняется обратное преобразование в исходное пространство.

Page 10: Классификация и регрессия

Support Vector Machines (SVM)

• Идея метода основывается на предположении о том, что наилучшим способом разделения точек в m-мерном пространстве является m-1 плоскость.

Page 11: Классификация и регрессия

Support Vector Machines (SVM)

• Формально данную задачу можно описать как поиск функции, отвечающей следующим условиям:

• Если f(x) линейна, то ее можно записать в виде:

Page 12: Классификация и регрессия

• Изначально алгоритм построения оптимальной разделяющей гиперплоскости — алгоритм линейной классификации. Однако в 1992 году ученые предложили способ создания нелинейного классификатора, в основе которого лежит переход от скалярных произведений к произвольным ядрам, так называемый kernel trick, позволяющий строить нелинейные разделители. Результирующий алгоритм крайне похож на алгоритм линейной классификации, с той лишь разницей, что каждое скалярное произведение заменяется нелинейной функцией ядра (скалярным произведением в пространстве с большей размерностью).

Page 13: Классификация и регрессия

Оcновные виды функций классификации, при меняемых в SVМ-методе.

Ядро Название

Линейная

Полиномиал степени d

Базовая радиальная функция Гаусса

Сигмодиальная

Page 14: Классификация и регрессия

Достоинства и недостатки метода SVM:

Достоинства метода SVM: • теоретическая и практическая обоснованность метода;• общий подход ко многим задачам;• устойчивые решения, нет проблем с локальными минимумами; • не подвержен проблеме overfitting; • работает в любом количестве измерений. Недостатками метода являются: • невысокая производительность по сравнению с более простыми

методами; • отсутствие общих рекомендаций по подбору параметров и выбору

ядра; • побочные эффекты нелинейных преобразований;• сложности с интерпретацией результата.

Page 15: Классификация и регрессия

Прогнозирование временных рядов

• Временной ряд – последовательность событий, упорядоченных по времени их наблюдения. События формируются через равные интервалы T и представляются:

• Задача построения прогноза: Пусть дан временной ряд, требуется на его основании определить значение при k>0

Page 16: Классификация и регрессия

Прогнозирование временных рядов

1. Построение модели, характеризующей временной ряд.

2. Оценка построенной модели.3. Если модель получила

удовлетворительную оценку, то ее можно использовать для прогноза событий.

Page 17: Классификация и регрессия

Методы прогнозирование временных рядов

• Метод экстраполяции• Метод максимального сглаживания• Метод скользящего окна

Page 18: Классификация и регрессия

Метод экстраполяции

• Вид функции f может быть как линейный, так и линейный. В общем виде:

где - искомые коэффициенты, подбираемые так, чтобы построенная функция имела бы минимальную ошибку прогноза.

Page 19: Классификация и регрессия

Метод экспоненциального сглаживания

Строит адаптивные модели прогнозирования1. По нескольким первым уровням ряда

оцениваются значения параметров модели.2. По имеющейся модели строится прогноз на один

шаг вперед, причем его отклонение от фактических уровней ряда расценивается как ошибка прогнозирования

3. Далее по модели со скорректированными параметрами рассчитывается прогнозная оценка на следующий момент времени и т.д.

Page 20: Классификация и регрессия

Метод скользящего окна

• Гипотеза, что существует закон, по которому можно определить значение очередного члена ряда как функцию от нескольких предыдущих членов. Фиксируют число k и предполагают, что только k предшествующих членов влияют на дальнейшее поведение ряда: