Методы выбора оптимального набора информативных признаков для задач классификации текстов

Методы выбора оптимального набора информативных признаков для задач

классификации текстов

Борисова Татьяна3 курс ВМК МГУ

Для чего нужен выбор признаков?

• Количество признаков может достигать 10 000 – 100 000

• Это слишком много для многих алгоритмов обучения (нейронные сети, наивная байесовская модель и т.д.) – «проклятье размерности»

Достоинства выбора признаков

• Лучше работают алгоритмы обучения• Проще понять природу данных• Меньше размер хранилищ

Методы выбора признаков

• Filters (методы-фильтры)• Wrappers (методы-обертки)• Embedded (встроенные методы)

Filters (методы-фильтры)

• Этап препроцессинга• Не зависит от результата работы

классификатора• Достоинства:– Вычислительно быстрые – Простая реализация– Хорошо масштабируются

Независимое ранжирование признаков

• Information gain (прирост информации)• Mutual information (взаимная информация)• Критерий хи-квадрат• Term strength («мощность признака»)• mRMR (minimum redundancy-maximum

relevance, минимальная избыточность-максимальная релевантность)

Обозначения

• – обучающая выборка: множество пар • = – k-й входной объект, • – число входных объектов• – выходные переменные (классы)• – классы, • – число признаков• – i-й признак • Предполагаются бинарные признаки

Принцип работы

• Вычисляем ранг каждого признака• Выкидываем признаки, для которых ранг

меньше заданного значения порога• Значение порога можно подобрать на

кросс-валидации (или путем выделения из тестовой выборки специального подмножества и тестирования на нем различных значений порога)

Information gain (прирост информации)

Сколько бит информации необходимо, чтобы классифицировать объекты с использованием признака А без его использования?Берем разницу

Mutual information (взаимная информация)

Вначале посчитаем взаимную информацию признака и категории:


Обозначения:• A: = и = 1 • B: ≠ и = 1 • C: = и = 0• D: ≠ и = 0

= ≠

= 1 A B

= 0 C D


При введенных ранее обозначениях

Теперь можно посчитать оценку для признака


Недостаток критерия взаимной информации

Ранг редких признаков выше, чем ранг частых

Критерий хи-квадрат

= ≠

= 1 A B

= 0 C D

Term strength («мощность признака»)

• Основан на кластеризации документов• Не использует информацию о классах

, – «связанные» документыДля оценки связанности можно использовать косинусную меру

mRMR(minimum redundancy-

maximum relevance)

• Не использует информацию о категориях• Может использовать взаимную информацию,

критерий корреляции и т.д.• Показано, что этот метод приближает

теоретически оптимальный maximum-dependency метод

mRMR(minimum redundancy-

maximum relevance)

• Не использует информацию о категориях



Wrappers (методы-обертки)

• Алгоритм обучения используется как «черный ящик»

• Оценивается информативность конкретного подмножества признаков для алгоритма обучения


• Выполняется поиск по пространству подмножеств исходного множества признаков

• Для каждого шага поиска используется информация о качестве обучения на текущем подмножестве признаков


– «вес» признака • Бинарный случай: • Непрерывный случай:

Экспоненциальныеалгоритмы поиска

• Сложность – Exhaustive search– Алгоритм ветвей и границ– FOCUS

Последовательныеалгоритмы поиска

• На каждом шаге выбираем одного последователя

• Не можем идти «назад»• Сложность • Можно на каждом шаге рассматривать

возможных последователей– Сложность в этом случае

Последовательныеалгоритмы поиска

• Прямой жадный алгоритм (forward selection)

• Обратный жадный алгоритм (backward elimination)

• Алгоритм восхождения на вершину(hill climbing)

Рандомизированные алгоритмы поиска

• Использование рандомизации для выхода из локальных минимумов

• Anytime-алгоритмы

Рандомизированные алгоритмы поиска

• Симуляция отжига• Генетические алгоритмы

Прямой и обратный жадный алгоритмы

• Пример– прямой жадный алгоритм

– обратный жадный алгоритм

1 1 0 0

1 1 1 0 1 1 0 1

1 1 0 1

0 1 0 0 1 0 0 0 1 1 0 0

Прямой и обратный жадный алгоритмы

0 0 0

1 0 0

0 1 0

0 0 1

1 1 0

0 1 1

1 0 1

1 1 10.0

0.1

0.1

0.5

0.9

0.7

0.6

0.8

прямой жадный алгоритм

обратный жадный алгоритм



Embedded (встроенные методы)

Выбор признаков является одним из этапов алгоритма обученияДостоинства:• Наилучшим образом приспособлены для

конкретной модели• Не нужно проводить кросс-валидацию или

разбивать тренировочную выборку

Embedded (встроенные методы)

• Линейная регрессия– LASSO

• SVM– SVM-RFE (Recursive Feature Elimination)

• Полиномиальная логистическая регрессия– RMNL (Random Multinomal logit): основан на

случайном лесе

Методы построения признаков

• PCA (Principal Component Analysis, метод главных компонент)

• Кластеризация• Автокодировщик • Регуляризованный случайный лес (RRF)• Применяют также спектральные и

волновые преобразования

Пример работы

Пример работы

Спасибо за внимание!

Documents

Методы выбора оптимального набора информативных признаков для задач классификации текстов