35
Методы выбора оптимального набора информативных признаков для задач классификации текстов Борисова Татьяна 3 курс ВМК МГУ

Методы выбора оптимального набора информативных признаков для задач классификации текстов

Embed Size (px)

DESCRIPTION

Методы выбора оптимального набора информативных признаков для задач классификации текстов. Борисова Татьяна 3 курс ВМК МГУ. Для чего нужен выбор признаков?. Количество признаков может достигать 10 000 – 100 000 - PowerPoint PPT Presentation

Citation preview

Page 1: Методы выбора оптимального набора информативных признаков для задач классификации текстов

Методы выбора оптимального набора информативных признаков для задач

классификации текстов

Борисова Татьяна3 курс ВМК МГУ

Page 2: Методы выбора оптимального набора информативных признаков для задач классификации текстов

Для чего нужен выбор признаков?

• Количество признаков может достигать 10 000 – 100 000

• Это слишком много для многих алгоритмов обучения (нейронные сети, наивная байесовская модель и т.д.) – «проклятье размерности»

Page 3: Методы выбора оптимального набора информативных признаков для задач классификации текстов

Достоинства выбора признаков

• Лучше работают алгоритмы обучения• Проще понять природу данных• Меньше размер хранилищ

Page 4: Методы выбора оптимального набора информативных признаков для задач классификации текстов

Методы выбора признаков

• Filters (методы-фильтры)• Wrappers (методы-обертки)• Embedded (встроенные методы)

Page 5: Методы выбора оптимального набора информативных признаков для задач классификации текстов

Filters (методы-фильтры)

• Этап препроцессинга• Не зависит от результата работы

классификатора• Достоинства:– Вычислительно быстрые – Простая реализация– Хорошо масштабируются

Page 6: Методы выбора оптимального набора информативных признаков для задач классификации текстов

Независимое ранжирование признаков

• Information gain (прирост информации)• Mutual information (взаимная информация)• Критерий хи-квадрат• Term strength («мощность признака»)• mRMR (minimum redundancy-maximum

relevance, минимальная избыточность-максимальная релевантность)

Page 7: Методы выбора оптимального набора информативных признаков для задач классификации текстов

Обозначения

• – обучающая выборка: множество пар • = – k-й входной объект, • – число входных объектов• – выходные переменные (классы)• – классы, • – число признаков• – i-й признак • Предполагаются бинарные признаки

Page 8: Методы выбора оптимального набора информативных признаков для задач классификации текстов

Принцип работы

• Вычисляем ранг каждого признака• Выкидываем признаки, для которых ранг

меньше заданного значения порога• Значение порога можно подобрать на

кросс-валидации (или путем выделения из тестовой выборки специального подмножества и тестирования на нем различных значений порога)

Page 9: Методы выбора оптимального набора информативных признаков для задач классификации текстов

Information gain (прирост информации)

Сколько бит информации необходимо, чтобы классифицировать объекты с использованием признака А без его использования?Берем разницу

Page 10: Методы выбора оптимального набора информативных признаков для задач классификации текстов

Mutual information (взаимная информация)

Вначале посчитаем взаимную информацию признака и категории:

Page 11: Методы выбора оптимального набора информативных признаков для задач классификации текстов

Mutual information (взаимная информация)

Обозначения:• A: = и = 1 • B: ≠ и = 1 • C: = и = 0• D: ≠ и = 0

= ≠

= 1 A B

= 0 C D

Page 12: Методы выбора оптимального набора информативных признаков для задач классификации текстов

Mutual information (взаимная информация)

При введенных ранее обозначениях

Теперь можно посчитать оценку для признака

Page 13: Методы выбора оптимального набора информативных признаков для задач классификации текстов

Mutual information (взаимная информация)

Недостаток критерия взаимной информации

Ранг редких признаков выше, чем ранг частых

Page 14: Методы выбора оптимального набора информативных признаков для задач классификации текстов

Критерий хи-квадрат

= ≠

= 1 A B

= 0 C D

Page 15: Методы выбора оптимального набора информативных признаков для задач классификации текстов

Term strength («мощность признака»)

• Основан на кластеризации документов• Не использует информацию о классах

, – «связанные» документыДля оценки связанности можно использовать косинусную меру

Page 16: Методы выбора оптимального набора информативных признаков для задач классификации текстов

mRMR(minimum redundancy-

maximum relevance)

• Не использует информацию о категориях• Может использовать взаимную информацию,

критерий корреляции и т.д.• Показано, что этот метод приближает

теоретически оптимальный maximum-dependency метод

Page 17: Методы выбора оптимального набора информативных признаков для задач классификации текстов

mRMR(minimum redundancy-

maximum relevance)

• Не использует информацию о категориях

Page 18: Методы выбора оптимального набора информативных признаков для задач классификации текстов

Методы выбора признаков

• Filters (методы-фильтры)• Wrappers (методы-обертки)• Embedded (встроенные методы)

Page 19: Методы выбора оптимального набора информативных признаков для задач классификации текстов

Wrappers (методы-обертки)

• Алгоритм обучения используется как «черный ящик»

• Оценивается информативность конкретного подмножества признаков для алгоритма обучения

Page 20: Методы выбора оптимального набора информативных признаков для задач классификации текстов

Принцип работы

• Выполняется поиск по пространству подмножеств исходного множества признаков

• Для каждого шага поиска используется информация о качестве обучения на текущем подмножестве признаков

Page 21: Методы выбора оптимального набора информативных признаков для задач классификации текстов

Принцип работы

– «вес» признака • Бинарный случай: • Непрерывный случай:

Page 22: Методы выбора оптимального набора информативных признаков для задач классификации текстов

Экспоненциальныеалгоритмы поиска

• Сложность – Exhaustive search– Алгоритм ветвей и границ– FOCUS

Page 23: Методы выбора оптимального набора информативных признаков для задач классификации текстов

Последовательныеалгоритмы поиска

• На каждом шаге выбираем одного последователя

• Не можем идти «назад»• Сложность • Можно на каждом шаге рассматривать

возможных последователей– Сложность в этом случае

Page 24: Методы выбора оптимального набора информативных признаков для задач классификации текстов

Последовательныеалгоритмы поиска

• Прямой жадный алгоритм (forward selection)

• Обратный жадный алгоритм (backward elimination)

• Алгоритм восхождения на вершину(hill climbing)

Page 25: Методы выбора оптимального набора информативных признаков для задач классификации текстов

Рандомизированные алгоритмы поиска

• Использование рандомизации для выхода из локальных минимумов

• Anytime-алгоритмы

Page 26: Методы выбора оптимального набора информативных признаков для задач классификации текстов

Рандомизированные алгоритмы поиска

• Симуляция отжига• Генетические алгоритмы

Page 27: Методы выбора оптимального набора информативных признаков для задач классификации текстов

Прямой и обратный жадный алгоритмы

• Пример– прямой жадный алгоритм

– обратный жадный алгоритм

1 1 0 0

1 1 1 0 1 1 0 1

1 1 0 1

0 1 0 0 1 0 0 0 1 1 0 0

Page 28: Методы выбора оптимального набора информативных признаков для задач классификации текстов

Прямой и обратный жадный алгоритмы

0 0 0

1 0 0

0 1 0

0 0 1

1 1 0

0 1 1

1 0 1

1 1 10.0

0.1

0.1

0.5

0.9

0.7

0.6

0.8

прямой жадный алгоритм

обратный жадный алгоритм

Page 29: Методы выбора оптимального набора информативных признаков для задач классификации текстов

Методы выбора признаков

• Filters (методы-фильтры)• Wrappers (методы-обертки)• Embedded (встроенные методы)

Page 30: Методы выбора оптимального набора информативных признаков для задач классификации текстов

Embedded (встроенные методы)

Выбор признаков является одним из этапов алгоритма обученияДостоинства:• Наилучшим образом приспособлены для

конкретной модели• Не нужно проводить кросс-валидацию или

разбивать тренировочную выборку

Page 31: Методы выбора оптимального набора информативных признаков для задач классификации текстов

Embedded (встроенные методы)

• Линейная регрессия– LASSO

• SVM– SVM-RFE (Recursive Feature Elimination)

• Полиномиальная логистическая регрессия– RMNL (Random Multinomal logit): основан на

случайном лесе

Page 32: Методы выбора оптимального набора информативных признаков для задач классификации текстов

Методы построения признаков

• PCA (Principal Component Analysis, метод главных компонент)

• Кластеризация• Автокодировщик • Регуляризованный случайный лес (RRF)• Применяют также спектральные и

волновые преобразования

Page 33: Методы выбора оптимального набора информативных признаков для задач классификации текстов

Пример работы

Page 34: Методы выбора оптимального набора информативных признаков для задач классификации текстов

Пример работы

Page 35: Методы выбора оптимального набора информативных признаков для задач классификации текстов

Спасибо за внимание!