14
Классификация Классификация документов документов Лидия Михайловна Лидия Михайловна Пивоварова Пивоварова Системы понимания текста Системы понимания текста

02 классификация документов

Embed Size (px)

DESCRIPTION

Презентация к курса "Системы понимания текста" - http://mathlingvo.ru/courses/ponimanie

Citation preview

Page 1: 02 классификация документов

Классификация Классификация документовдокументов

Лидия Михайловна Лидия Михайловна ПивовароваПивоварова

Системы понимания Системы понимания текстатекста

Page 2: 02 классификация документов

ВведениеВведение Классификация (кластеризация) документов – это Классификация (кластеризация) документов – это

разбиение множества документов на заранее разбиение множества документов на заранее заданные группы (например, тематические)заданные группы (например, тематические)

Классификация (в отличие от кластеризации) – это Классификация (в отличие от кластеризации) – это обучение с учителем; необходимое условие – обучение с учителем; необходимое условие – наличие разбитой по группам коллекции наличие разбитой по группам коллекции документов.документов.

Классификация Классификация индексирование в предкоординированных индексирование в предкоординированных

информационных системах (т.е. тех, где ключи индекса информационных системах (т.е. тех, где ключи индекса заданы заранее) заданы заранее)

этап при решении других задач: фильтрация спама, этап при решении других задач: фильтрация спама, определение авторства, определение тональности определение авторства, определение тональности сообщений и т.п.сообщений и т.п.

Page 3: 02 классификация документов

СодержаниеСодержание

1.1. Наивный баесовский подходНаивный баесовский подход

2.2. Классификация в векторном Классификация в векторном пространствепространстве

1.1. Метод РоккиоМетод Роккио

2.2. Метод Метод kk ближайших соседей ближайших соседей

3.3. Машина опорных векторовМашина опорных векторов

Page 4: 02 классификация документов

Условная вероятностьУсловная вероятность Вероятность того, что документ Вероятность того, что документ dd

принадлежит классу принадлежит классу cc::

P(c)P(c) – – объем данного класса объем данного класса относительно коллекции в целомотносительно коллекции в целом

P(tP(tkk|c) – |c) – вес термина вес термина ttkk в данном классе; в данном классе; может вычисляться как доля документов, в которые входит этот может вычисляться как доля документов, в которые входит этот

термин, в классетермин, в классе или как доля употреблений этого термина относительно объема или как доля употреблений этого термина относительно объема

класса в словоупотребленияхкласса в словоупотреблениях

«Наивность»: считается, что все термины в классе «Наивность»: считается, что все термины в классе независимы; отсюда произведение вероятностейнезависимы; отсюда произведение вероятностей

Page 5: 02 классификация документов

Максимальная Максимальная апостериорная апостериорная

вероятностьвероятность Цель – найти наилучший класс для документа, т.е. Цель – найти наилучший класс для документа, т.е.

имеющий имеющий максимальную апостериорную максимальную апостериорную вероятностьвероятность::

Page 6: 02 классификация документов

Выбор признаковВыбор признаков

Для классификации обычно используют не Для классификации обычно используют не все слова (термины) коллекции, а только все слова (термины) коллекции, а только часть из нихчасть из них сокращение пространства признаков сокращение пространства признаков → →

уменьшение вычислительной сложностиуменьшение вычислительной сложности удаление шумовудаление шумов

Выбор «наиболее полезных» признаков -Выбор «наиболее полезных» признаков -полезность может вычисляться по-разному: полезность может вычисляться по-разному: частота, взаимная информация, логарифм частота, взаимная информация, логарифм правдоподобия…правдоподобия…

Как минимум – удаление стоп-словКак минимум – удаление стоп-слов

Page 7: 02 классификация документов

СодержаниеСодержание

1.1. Наивный баесовский подходНаивный баесовский подход

2.2. Классификация в векторном Классификация в векторном пространствепространстве

1.1. Метод РоккиоМетод Роккио

2.2. Метод Метод kk ближайших соседей ближайших соседей

3.3. Машина опорных векторовМашина опорных векторов

Page 8: 02 классификация документов

Классификация в Классификация в векторном пространствевекторном пространстве

Документы – точки в пространстве Документы – точки в пространстве терминов (аналогично векторной терминов (аналогично векторной модели информационного поиска)модели информационного поиска)

Цель классификации: найти Цель классификации: найти поверхности, которые разделяют поверхности, которые разделяют векторы обучающего множествавекторы обучающего множества

Новые документы Новые документы классифицируются по их классифицируются по их расположению относительно этих расположению относительно этих поверхностейповерхностей

Page 9: 02 классификация документов

Линейная Линейная vs. vs. нелинейная нелинейная классификацияклассификация

Линейная классификация Линейная классификация – разделяющие – разделяющие поверхности – это поверхности – это гиперплоскостигиперплоскости

Нелинейная – Нелинейная – произвольные произвольные поверхностиповерхности

Линейная Линейная классификация: меньшая классификация: меньшая точность, но и меньшая точность, но и меньшая чувствительность к чувствительность к шумамшумам

Page 10: 02 классификация документов

Метод РоккиоМетод Роккио Линейная классификацияЛинейная классификация Класс определяется своим центроидом:Класс определяется своим центроидом:

Разделяющая гиперплоскость: Разделяющая гиперплоскость: плоскость, все точки которой находятся плоскость, все точки которой находятся на равном расстоянии от центроидовна равном расстоянии от центроидов

Новые документы классифицируются Новые документы классифицируются по ближайшему к ним центроидупо ближайшему к ним центроиду

Page 11: 02 классификация документов

Метод Метод kk-ближайших -ближайших соседейсоседей

Нелийнейная Нелийнейная классификацияклассификация

Документ относится к тому Документ относится к тому же классу, к которому же классу, к которому относится большинство из относится большинство из kk ближайших к немуближайших к нему

Соседи могут «голосовать» с Соседи могут «голосовать» с весами, в зависимости от их весами, в зависимости от их близости к близости к рассматриваемому рассматриваемому документудокументу

Метод может Метод может использоваться для использоваться для нечеткой (вероятностной) нечеткой (вероятностной) классификацииклассификации

Page 12: 02 классификация документов

Машина опорных Машина опорных векторов (векторов (SVM)SVM)

Линейная классификацияЛинейная классификация Используется не все Используется не все

обучающее множество, а обучающее множество, а только те документы, только те документы, которые ближе всего к которые ближе всего к документам документам противоположного противоположного класса – опорные векторакласса – опорные вектора

Цель: найти такую Цель: найти такую гиперплоскость, что гиперплоскость, что обучающие примеры обучающие примеры отстоят от нее на отстоят от нее на максимальное максимальное расстояние.расстояние.

Page 13: 02 классификация документов

SVMSVM Обучающее множество: Обучающее множество:

xxii – обучающие примеры,– обучающие примеры, yyii == ± 1 ± 1 в в

зависимости от классификациизависимости от классификации Разделяющая гиперплоскость:Разделяющая гиперплоскость:

w w – перпендикуляр, – перпендикуляр, b – b – смещениесмещение Для Для yyii == ++11

Для Для yyii == ––11

)},(),...,,{( nyyS n11 xx

wxi b 0

wxi b 1

wxi b 1

Page 14: 02 классификация документов

ИсточникиИсточники

1.1. КК.. Д. Маннинг, П Д. Маннинг, П.. Рагхаван, Х Рагхаван, Х.. Шютце Шютце Введение в информационный поиск – Введение в информационный поиск – М.:Вильямс, 2011 – Главы 13-15М.:Вильямс, 2011 – Главы 13-15

2.2. Д.В. Ландэ, А.А. Снарский, И.В. Безсуднов Д.В. Ландэ, А.А. Снарский, И.В. Безсуднов Интернетика. Навигация в сложных сетях: Интернетика. Навигация в сложных сетях: модели и алгоритмы – Ммодели и алгоритмы – М.:.: URSS, URSS, 20092009 – – Глава Глава 44