02 классификация документов

Preview:

DESCRIPTION

Презентация к курса "Системы понимания текста" - http://mathlingvo.ru/courses/ponimanie

Citation preview

Классификация Классификация документовдокументов

Лидия Михайловна Лидия Михайловна ПивовароваПивоварова

Системы понимания Системы понимания текстатекста

ВведениеВведение Классификация (кластеризация) документов – это Классификация (кластеризация) документов – это

разбиение множества документов на заранее разбиение множества документов на заранее заданные группы (например, тематические)заданные группы (например, тематические)

Классификация (в отличие от кластеризации) – это Классификация (в отличие от кластеризации) – это обучение с учителем; необходимое условие – обучение с учителем; необходимое условие – наличие разбитой по группам коллекции наличие разбитой по группам коллекции документов.документов.

Классификация Классификация индексирование в предкоординированных индексирование в предкоординированных

информационных системах (т.е. тех, где ключи индекса информационных системах (т.е. тех, где ключи индекса заданы заранее) заданы заранее)

этап при решении других задач: фильтрация спама, этап при решении других задач: фильтрация спама, определение авторства, определение тональности определение авторства, определение тональности сообщений и т.п.сообщений и т.п.

СодержаниеСодержание

1.1. Наивный баесовский подходНаивный баесовский подход

2.2. Классификация в векторном Классификация в векторном пространствепространстве

1.1. Метод РоккиоМетод Роккио

2.2. Метод Метод kk ближайших соседей ближайших соседей

3.3. Машина опорных векторовМашина опорных векторов

Условная вероятностьУсловная вероятность Вероятность того, что документ Вероятность того, что документ dd

принадлежит классу принадлежит классу cc::

P(c)P(c) – – объем данного класса объем данного класса относительно коллекции в целомотносительно коллекции в целом

P(tP(tkk|c) – |c) – вес термина вес термина ttkk в данном классе; в данном классе; может вычисляться как доля документов, в которые входит этот может вычисляться как доля документов, в которые входит этот

термин, в классетермин, в классе или как доля употреблений этого термина относительно объема или как доля употреблений этого термина относительно объема

класса в словоупотребленияхкласса в словоупотреблениях

«Наивность»: считается, что все термины в классе «Наивность»: считается, что все термины в классе независимы; отсюда произведение вероятностейнезависимы; отсюда произведение вероятностей

Максимальная Максимальная апостериорная апостериорная

вероятностьвероятность Цель – найти наилучший класс для документа, т.е. Цель – найти наилучший класс для документа, т.е.

имеющий имеющий максимальную апостериорную максимальную апостериорную вероятностьвероятность::

Выбор признаковВыбор признаков

Для классификации обычно используют не Для классификации обычно используют не все слова (термины) коллекции, а только все слова (термины) коллекции, а только часть из нихчасть из них сокращение пространства признаков сокращение пространства признаков → →

уменьшение вычислительной сложностиуменьшение вычислительной сложности удаление шумовудаление шумов

Выбор «наиболее полезных» признаков -Выбор «наиболее полезных» признаков -полезность может вычисляться по-разному: полезность может вычисляться по-разному: частота, взаимная информация, логарифм частота, взаимная информация, логарифм правдоподобия…правдоподобия…

Как минимум – удаление стоп-словКак минимум – удаление стоп-слов

СодержаниеСодержание

1.1. Наивный баесовский подходНаивный баесовский подход

2.2. Классификация в векторном Классификация в векторном пространствепространстве

1.1. Метод РоккиоМетод Роккио

2.2. Метод Метод kk ближайших соседей ближайших соседей

3.3. Машина опорных векторовМашина опорных векторов

Классификация в Классификация в векторном пространствевекторном пространстве

Документы – точки в пространстве Документы – точки в пространстве терминов (аналогично векторной терминов (аналогично векторной модели информационного поиска)модели информационного поиска)

Цель классификации: найти Цель классификации: найти поверхности, которые разделяют поверхности, которые разделяют векторы обучающего множествавекторы обучающего множества

Новые документы Новые документы классифицируются по их классифицируются по их расположению относительно этих расположению относительно этих поверхностейповерхностей

Линейная Линейная vs. vs. нелинейная нелинейная классификацияклассификация

Линейная классификация Линейная классификация – разделяющие – разделяющие поверхности – это поверхности – это гиперплоскостигиперплоскости

Нелинейная – Нелинейная – произвольные произвольные поверхностиповерхности

Линейная Линейная классификация: меньшая классификация: меньшая точность, но и меньшая точность, но и меньшая чувствительность к чувствительность к шумамшумам

Метод РоккиоМетод Роккио Линейная классификацияЛинейная классификация Класс определяется своим центроидом:Класс определяется своим центроидом:

Разделяющая гиперплоскость: Разделяющая гиперплоскость: плоскость, все точки которой находятся плоскость, все точки которой находятся на равном расстоянии от центроидовна равном расстоянии от центроидов

Новые документы классифицируются Новые документы классифицируются по ближайшему к ним центроидупо ближайшему к ним центроиду

Метод Метод kk-ближайших -ближайших соседейсоседей

Нелийнейная Нелийнейная классификацияклассификация

Документ относится к тому Документ относится к тому же классу, к которому же классу, к которому относится большинство из относится большинство из kk ближайших к немуближайших к нему

Соседи могут «голосовать» с Соседи могут «голосовать» с весами, в зависимости от их весами, в зависимости от их близости к близости к рассматриваемому рассматриваемому документудокументу

Метод может Метод может использоваться для использоваться для нечеткой (вероятностной) нечеткой (вероятностной) классификацииклассификации

Машина опорных Машина опорных векторов (векторов (SVM)SVM)

Линейная классификацияЛинейная классификация Используется не все Используется не все

обучающее множество, а обучающее множество, а только те документы, только те документы, которые ближе всего к которые ближе всего к документам документам противоположного противоположного класса – опорные векторакласса – опорные вектора

Цель: найти такую Цель: найти такую гиперплоскость, что гиперплоскость, что обучающие примеры обучающие примеры отстоят от нее на отстоят от нее на максимальное максимальное расстояние.расстояние.

SVMSVM Обучающее множество: Обучающее множество:

xxii – обучающие примеры,– обучающие примеры, yyii == ± 1 ± 1 в в

зависимости от классификациизависимости от классификации Разделяющая гиперплоскость:Разделяющая гиперплоскость:

w w – перпендикуляр, – перпендикуляр, b – b – смещениесмещение Для Для yyii == ++11

Для Для yyii == ––11

)},(),...,,{( nyyS n11 xx

wxi b 0

wxi b 1

wxi b 1

ИсточникиИсточники

1.1. КК.. Д. Маннинг, П Д. Маннинг, П.. Рагхаван, Х Рагхаван, Х.. Шютце Шютце Введение в информационный поиск – Введение в информационный поиск – М.:Вильямс, 2011 – Главы 13-15М.:Вильямс, 2011 – Главы 13-15

2.2. Д.В. Ландэ, А.А. Снарский, И.В. Безсуднов Д.В. Ландэ, А.А. Снарский, И.В. Безсуднов Интернетика. Навигация в сложных сетях: Интернетика. Навигация в сложных сетях: модели и алгоритмы – Ммодели и алгоритмы – М.:.: URSS, URSS, 20092009 – – Глава Глава 44

Recommended