Методы выбора оптимального набора информативных...

Методы выбора оптимального набора информативных признаков для задач

классификации текстов

Борисова Татьяна3 курс ВМК МГУ

Для чего нужен выбор признаков?

• Количество признаков может достигать 10 000 – 100 000

• Это слишком много для многих алгоритмов обучения (нейронные сети, наивная байесовская модель и т.д.) – «проклятье размерности»

Достоинства выбора признаков

• Лучше работают алгоритмы обучения• Проще понять природу данных• Меньше размер хранилищ

Методы выбора признаков

• Filters (методы-фильтры)• Wrappers (методы-обертки)• Embedded (встроенные методы)

Filters (методы-фильтры)

• Этап препроцессинга• Не зависит от результата работы

классификатора• Достоинства:– Вычислительно быстрые – Простая реализация– Хорошо масштабируются

Независимое ранжирование признаков

• Information gain (прирост информации)• Mutual information (взаимная информация)• Критерий хи-квадрат• Term strength («мощность признака»)• mRMR (minimum redundancy-maximum

relevance, минимальная избыточность-максимальная релевантность)

Обозначения

• – обучающая выборка: множество пар • = – k-й входной объект, • – число входных объектов• – выходные переменные (классы)• – классы, • – число признаков• – i-й признак • Предполагаются бинарные признаки

Принцип работы

• Вычисляем ранг каждого признака• Выкидываем признаки, для которых ранг

меньше заданного значения порога• Значение порога можно подобрать на

кросс-валидации (или путем выделения из тестовой выборки специального подмножества и тестирования на нем различных значений порога)

Information gain (прирост информации)

Сколько бит информации необходимо, чтобы классифицировать объекты с использованием признака А без его использования?Берем разницу

Mutual information (взаимная информация)

Вначале посчитаем взаимную информацию признака и категории:

Обозначения:• A: = и = 1 • B: ≠ и = 1 • C: = и = 0• D: ≠ и = 0

= 1 A B

= 0 C D

При введенных ранее обозначениях

Теперь можно посчитать оценку для признака

Недостаток критерия взаимной информации

Ранг редких признаков выше, чем ранг частых

Критерий хи-квадрат

= 1 A B

= 0 C D

Term strength («мощность признака»)

• Основан на кластеризации документов• Не использует информацию о классах

, – «связанные» документыДля оценки связанности можно использовать косинусную меру

mRMR(minimum redundancy-

maximum relevance)

• Не использует информацию о категориях• Может использовать взаимную информацию,

критерий корреляции и т.д.• Показано, что этот метод приближает

теоретически оптимальный maximum-dependency метод

mRMR(minimum redundancy-

maximum relevance)

• Не использует информацию о категориях

Wrappers (методы-обертки)

• Алгоритм обучения используется как «черный ящик»

• Оценивается информативность конкретного подмножества признаков для алгоритма обучения

• Выполняется поиск по пространству подмножеств исходного множества признаков

• Для каждого шага поиска используется информация о качестве обучения на текущем подмножестве признаков

– «вес» признака • Бинарный случай: • Непрерывный случай:

Экспоненциальныеалгоритмы поиска

• Сложность – Exhaustive search– Алгоритм ветвей и границ– FOCUS

Последовательныеалгоритмы поиска

• На каждом шаге выбираем одного последователя

• Не можем идти «назад»• Сложность • Можно на каждом шаге рассматривать

возможных последователей– Сложность в этом случае

Последовательныеалгоритмы поиска

• Прямой жадный алгоритм (forward selection)

• Обратный жадный алгоритм (backward elimination)

• Алгоритм восхождения на вершину(hill climbing)

Рандомизированные алгоритмы поиска

• Использование рандомизации для выхода из локальных минимумов

• Anytime-алгоритмы

Рандомизированные алгоритмы поиска

• Симуляция отжига• Генетические алгоритмы

Прямой и обратный жадный алгоритмы

• Пример– прямой жадный алгоритм

– обратный жадный алгоритм

1 1 0 0

1 1 1 0 1 1 0 1

1 1 0 1

0 1 0 0 1 0 0 0 1 1 0 0

Прямой и обратный жадный алгоритмы

1 1 10.0

прямой жадный алгоритм

обратный жадный алгоритм

Embedded (встроенные методы)

Выбор признаков является одним из этапов алгоритма обученияДостоинства:• Наилучшим образом приспособлены для

конкретной модели• Не нужно проводить кросс-валидацию или

разбивать тренировочную выборку

Embedded (встроенные методы)

• Линейная регрессия– LASSO

• SVM– SVM-RFE (Recursive Feature Elimination)

• Полиномиальная логистическая регрессия– RMNL (Random Multinomal logit): основан на

случайном лесе

Методы построения признаков

• PCA (Principal Component Analysis, метод главных компонент)

• Кластеризация• Автокодировщик • Регуляризованный случайный лес (RRF)• Применяют также спектральные и

волновые преобразования

Пример работы

Спасибо за внимание!

Методы выбора оптимального набора информативных...

Documents

Методи оптимального керування сталими ...atep.kpi.ua/files/pdf/optimization_1268915918.pdf1 Методи оптимального керування

Система оптимального кормления

13 признаков того, что вы учитель

МОРС - методы оптимального развития сетей № 2

Создание РУПов 2013 года набора заочной формы обучения

Формализация локальных свойств в структурах типизированных признаков

Аллергия и БАД презентация нового набора

ЁРД 10 признаков того, что компания скоро обанкротится

Chatbots Academy - 1ая встреча 1ого набора

УДК 37 - pnojournal.files.wordpress.comМоделирование универсального набора электронных учебно-методических ресурсов

Справочник признаков доходов (Довідник ознак доходів)

Когнитивные стили и их место в структуре психологических признаков

Формирование оптимального портфеля заказов в программно-техническом комплексе

Calypso DES -- Исследование ПАТРИОТ -- Окончание набора

Условия, применяемые для 3-го конкурсного набора проектных предложений

7 признаков своего дела от стаса кузавова

Технологии Набора, Обучения и Адаптации Персонала (Курочкина Ю.)

Выбор оптимального решения для любой ......Company payoff segment designation division Country maKing modern Living possiBLe Выбор оптимального

МЕТОДИКА ФОРМИРОВАНИЯ ОПТИМАЛЬНОГО · PDF fileT-Comm Tом 9. #4-2015 72 МЕТОДИКА ФОРМИРОВАНИЯ ОПТИМАЛЬНОГО ПЛАНА

Теория оптимального управления экономическими системами - II