46
Кластеризация Кластеризация документов документов Лидия Михайловна Лидия Михайловна Пивоварова Пивоварова Системы понимания текста Системы понимания текста

03 кластеризация документов

Embed Size (px)

DESCRIPTION

Презентация по курсу "Системы по

Citation preview

Page 1: 03 кластеризация документов

Кластеризация Кластеризация документовдокументов

Лидия Михайловна Лидия Михайловна ПивовароваПивоварова

Системы понимания Системы понимания текстатекста

Page 2: 03 кластеризация документов

ВведениеВведение

Кластеризация документов – это процесс Кластеризация документов – это процесс обнаружения естественных групп в обнаружения естественных групп в коллекции документов.коллекции документов.

Кластеризацию может служить как чисто Кластеризацию может служить как чисто исследовательской цели (выяснить исследовательской цели (выяснить структуру коллекции), так и лучшему структуру коллекции), так и лучшему поиску и представлению информации; поиску и представлению информации; классический пример: группировка по классический пример: группировка по темам в системах автоматического сбора темам в системах автоматического сбора новостей.новостей.

Кластеризация: мягкая/жесткая, Кластеризация: мягкая/жесткая, иеррархическая/плоскаяиеррархическая/плоская

Page 3: 03 кластеризация документов

СодержаниеСодержание

1.1. Оценка качества кластеризацииОценка качества кластеризации2.2. Применение векторной модели в Применение векторной модели в

кластеризациикластеризации3.3. Иерархическая кластеризацияИерархическая кластеризация4.4. «Разделяющая» кластеризация«Разделяющая» кластеризация5.5. Генеративные алгоритмыГенеративные алгоритмы6.6. Спектральная кластеризацияСпектральная кластеризация7.7. Снижение размерностиСнижение размерности8.8. Модели с учетом порядка словМодели с учетом порядка слов

Page 4: 03 кластеризация документов

Оценка качества Оценка качества кластеризациикластеризации

Не существует единого (общепризнанного, Не существует единого (общепризнанного, применимого во всех случаях) метода применимого во всех случаях) метода оценкиоценки

Оценка предполагает, что коллекция (или Оценка предполагает, что коллекция (или часть коллекции) размечена человекомчасть коллекции) размечена человеком Кластеры Кластеры – результат кластеризации, – результат кластеризации, классы классы

– – результат ручной разметкирезультат ручной разметки Аналогичные методы могут Аналогичные методы могут

использоваться для оценки использоваться для оценки классификацииклассификации

Page 5: 03 кластеризация документов

Матрица Матрица несоответствийнесоответствий

КЛАССЫКЛАССЫ

ККЛЛААССТТЕЕРРЫЫ

AA BB CC

aa 22 22 00

bb 22 22 00

cc 00 00 88

- способ примитивный, зато наглядный- способ примитивный, зато наглядный

Page 6: 03 кластеризация документов

Метрики заимствованные Метрики заимствованные из информационного из информационного

поискапоискаПолнота (Полнота (recall):recall):R = tp / (tp+fn)R = tp / (tp+fn)

Точность (Точность (presicion):presicion):P = tp / (tp+fn)P = tp / (tp+fn)

F-F-мера:мера:

Аккуратность Аккуратность (accuracy)(accuracy)::A = (tp + tn) / (tp + tn +fp A = (tp + tn) / (tp + tn +fp

+fn)+fn)

РелеваРелевантныентные

НерелеНерелевантнывантны

ее

НайденНайденныеные

tptp fpfp

НенайдНенайденныеенные

fnfn tntn

Page 7: 03 кластеризация документов

Применительно к Применительно к кластеризациикластеризации

i – i – классы, классы, j – j – кластеры, кластеры, n –n – общее число общее число документов, документов, nnii – – число документов в классе число документов в классе ii

Т.е. для каждого класса выбираем кластер, Т.е. для каждого класса выбираем кластер, который ему больше соответствует который ему больше соответствует (argmax)(argmax), , суммируем меры соответствия (суммируем меры соответствия (FF)) для всех для всех классов, при этом чем больше класс, тем больше классов, при этом чем больше класс, тем больше его вес в общей сумме (его вес в общей сумме (nni i ).).

F-F-мера показывает общее качество кластеризации, мера показывает общее качество кластеризации, но не показывает как устроены сами кластеры.но не показывает как устроены сами кластеры.

Page 8: 03 кластеризация документов

ЧистотаЧистота

i – i – классы, классы, j – j – кластеры, кластеры, n –n – общее число документов, общее число документов, nnj j – – число документов в кластере число документов в кластере jj, , P(i,j) – P(i,j) – доля документов доля документов из класса из класса i i в кластере в кластере j j ..

Т.е. берем долю доминирующего (Т.е. берем долю доминирующего (argmaxargmax) класса в кластере ) класса в кластере ((P(i,j)P(i,j)), и суммируем по всем кластерам, при этом чем ), и суммируем по всем кластерам, при этом чем больше кластер, тем больше его вес в сумме (больше кластер, тем больше его вес в сумме (nnj j ).).

Чем выше значение чистоты, тем лучше. В идеальном Чем выше значение чистоты, тем лучше. В идеальном случае случае P=P=1.1.

Page 9: 03 кластеризация документов

ЭнтропияЭнтропия

i – i – классы, классы, j – j – кластеры, кластеры, n –n – общее число документов, общее число документов, nnj j – – число документов в кластере число документов в кластере jj, , P(i,j) – P(i,j) – доля документов доля документов из класса из класса i i в кластере в кластере j j , , k – k – число кластеров.число кластеров.

Энтропия – степень «размазанности» класса по кластерам. Энтропия – степень «размазанности» класса по кластерам. Чем меньше, тем лучше, в идеале Чем меньше, тем лучше, в идеале E=0E=0..

Page 10: 03 кластеризация документов

Взаимная информацияВзаимная информация Чистота и энтропия хороши тогда, когда число классов и Чистота и энтропия хороши тогда, когда число классов и

кластеров совпадает. В других случаях лучше кластеров совпадает. В других случаях лучше MI (MI (или или NMINMI – – нормализованная взаимная информация).нормализованная взаимная информация).

n – n – общее число документов, общее число документов, nnhh – число документов в – число документов в классе классе hh, , nnll – число документов в кластере – число документов в кластере l, nl, nh,lh,l – – число документов в пересечении.число документов в пересечении.

n

Классnh

nh,l Кластерnl

Page 11: 03 кластеризация документов

СтабильностьСтабильностьС помощью взаимной информации можно С помощью взаимной информации можно

считать стабильность, т.е. степень считать стабильность, т.е. степень пересечения кластеризации при разных пересечения кластеризации при разных прогонах одного и того же алгоритма.прогонах одного и того же алгоритма.

ΛΛ – множество различных – множество различных кластеризаций, кластеризаций, λλ – конкретная – конкретная кластеризация, кластеризация, r – r – число кластеров.число кластеров.

Page 12: 03 кластеризация документов

СодержаниеСодержание

1.1. Оценка качества кластеризацииОценка качества кластеризации2.2. Применение векторной модели в Применение векторной модели в

кластеризациикластеризации3.3. Иерархическая кластеризацияИерархическая кластеризация4.4. «Разделяющая» кластеризация«Разделяющая» кластеризация5.5. Генеративные алгоритмыГенеративные алгоритмы6.6. Спектральная кластеризацияСпектральная кластеризация7.7. Снижение размерностиСнижение размерности8.8. Модели с учетом порядка словМодели с учетом порядка слов

Page 13: 03 кластеризация документов

Векторная модельВекторная модель Коллекция из Коллекция из n n документовдокументов и и m m различных различных

терминов представляется в виде матрицы терминов представляется в виде матрицы mmxxnn, где каждый документ – вектор в , где каждый документ – вектор в m-m-мерном пространстве.мерном пространстве.

Веса терминов можно считать по разному: Веса терминов можно считать по разному: частота, бинарная частота (входит – не частота, бинарная частота (входит – не входит), входит), tf*idftf*idf……

Порядок слов не учитывается (Порядок слов не учитывается (bag of words)bag of words) Матрица очень большая (большое число Матрица очень большая (большое число

различных терминов в гетерогенной различных терминов в гетерогенной коллекции).коллекции).

В матрице много нулейВ матрице много нулей

Page 14: 03 кластеризация документов

Предобработка Предобработка Фильтрация (удаление спецсимволов Фильтрация (удаление спецсимволов

и пунктуации)и пунктуации) Токенизация (разбиваем текст на Токенизация (разбиваем текст на

термины – слова или словосочетания)термины – слова или словосочетания) Стемминг (приведение слова к Стемминг (приведение слова к

основе)основе) Удаление стоп-словУдаление стоп-слов Сокращение (удаление Сокращение (удаление

низкочастотных слов)низкочастотных слов)

Page 15: 03 кластеризация документов

СодержаниеСодержание

1.1. Оценка качества кластеризацииОценка качества кластеризации2.2. Применение векторной модели в Применение векторной модели в

кластеризациикластеризации3.3. Иерархическая кластеризацияИерархическая кластеризация4.4. «Разделяющая» кластеризация«Разделяющая» кластеризация5.5. Генеративные алгоритмыГенеративные алгоритмы6.6. Спектральная кластеризацияСпектральная кластеризация7.7. Снижение размерностиСнижение размерности8.8. Модели с учетом порядка словМодели с учетом порядка слов

Page 16: 03 кластеризация документов

Иерархическая Иерархическая кластеризациякластеризация

На начальной стадии каждый документ На начальной стадии каждый документ – сам себе кластер. – сам себе кластер.

На каждом шаге документы На каждом шаге документы объединяются до построения полного объединяются до построения полного дерева.дерева.

Число кластеров заранее не Число кластеров заранее не оговаривается.оговаривается.

Не подходит для больших объемов Не подходит для больших объемов данных (подсчет расстояния на каждой данных (подсчет расстояния на каждой стадии).стадии).

Page 17: 03 кластеризация документов

СодержаниеСодержание

1.1. Оценка качества кластеризацииОценка качества кластеризации2.2. Применение векторной модели в Применение векторной модели в

кластеризациикластеризации3.3. Иерархическая кластеризацияИерархическая кластеризация4.4. «Разделяющая» кластеризация«Разделяющая» кластеризация5.5. Генеративные алгоритмыГенеративные алгоритмы6.6. Спектральная кластеризацияСпектральная кластеризация7.7. Снижение размерностиСнижение размерности8.8. Модели с учетом порядка словМодели с учетом порядка слов

Page 18: 03 кластеризация документов

«Разделяющая» «Разделяющая» кластеризациякластеризация

Классический примерКлассический пример - - kmeans:kmeans: Выбирается Выбирается k k случайных документов, случайных документов,

которые считаются центроидами которые считаются центроидами кластеров, все остальные документы кластеров, все остальные документы распределяются по кластерам по распределяются по кластерам по степени близости к центроидамстепени близости к центроидам

На следующих итерациях центроиды На следующих итерациях центроиды пересчитываются и документы пересчитываются и документы перераспределяютсяперераспределяются

Косинусная метрика лучше, чем Косинусная метрика лучше, чем Евклидово расстояниеЕвклидово расстояние

Page 19: 03 кластеризация документов

Недостатки Недостатки kmeanskmeans Результаты могут быть различными в Результаты могут быть различными в

зависимости от инициализации.зависимости от инициализации. Может останавливаться на Может останавливаться на

субоптимальном локальном минимумесубоптимальном локальном минимуме Чувствителен к шуму и случайным Чувствителен к шуму и случайным

выбросамвыбросам

Вычислительная сложностьВычислительная сложность: : где где nn – – число документов, число документов, kk – – число число

кластеров, кластеров, l l – число итераций.– число итераций.

Page 20: 03 кластеризация документов

СодержаниеСодержание

1.1. Оценка качества кластеризацииОценка качества кластеризации2.2. Применение векторной модели в Применение векторной модели в

кластеризациикластеризации3.3. Иерархическая кластеризацияИерархическая кластеризация4.4. «Разделяющая» кластеризация«Разделяющая» кластеризация5.5. Генеративные алгоритмыГенеративные алгоритмы6.6. Спектральная кластеризацияСпектральная кластеризация7.7. Снижение размерностиСнижение размерности8.8. Модели с учетом порядка словМодели с учетом порядка слов

Page 21: 03 кластеризация документов

Генеративные Генеративные алгоритмыалгоритмы

Дискриминативные алгоритмы, Дискриминативные алгоритмы, которые основаны на попарной которые основаны на попарной близости документов, имеют близости документов, имеют сложностьсложность O(n O(n22) ) по определениюпо определению. .

Генеративные алгоритмы не Генеративные алгоритмы не требуют такого сравнения, требуют такого сравнения, используя итеративные используя итеративные процедуры.процедуры.

Page 22: 03 кластеризация документов

Гауссова модельГауссова модель Предполагается, что Предполагается, что

распределение распределение документов в векторном документов в векторном пространстве – это набор пространстве – это набор Гауссовых Гауссовых распределений; каждый распределений; каждый кластер ассоциирован со кластер ассоциирован со средним распределения средним распределения и матрицей ковариации.и матрицей ковариации.

• Ковариация:

• Если между x и у нет корреляции, то ковариация равна нулю.

• Матрица ковариации: матрица, элементы которой – это попарные ковариации двух векторов.

• Если речь идет об одном и том же наборе векторов (наш случай: одни и те же документы в столбцах и строках), то матрица ковариации – это обобщение дисперсии для многомерной случайной величины.

Page 23: 03 кластеризация документов

Гауссова модельГауссова модель Вероятность того, что документ Вероятность того, что документ d d

принадлежит кластеру принадлежит кластеру θθ из набора из набора ΘΘ::

P(d| P(d| θθ) - ) - вероятность того, что документ вероятность того, что документ d d принадлежит принадлежит кластеру кластеру θθ, m – , m – размерность пространства, размерность пространства, μμ – – центроид, центроид, ΣΣ – матрица ковариации. – матрица ковариации.

Общая вероятность (правдоподобие того, что данный Общая вероятность (правдоподобие того, что данный документ описывается моделью):документ описывается моделью):

Задача кластеризации: максимизировать это число, Задача кластеризации: максимизировать это число, максимизировав каждое из слагаемых (т.е. найдя максимизировав каждое из слагаемых (т.е. найдя наилучшее среднее и матрицу ковариации для каждого наилучшее среднее и матрицу ковариации для каждого кластера).кластера).

Page 24: 03 кластеризация документов

Expectation maximization Expectation maximization ((EMEM-алгоритм)-алгоритм)

Итеративная процедура для нахождения Итеративная процедура для нахождения максимального правдоподобия параметров модели.максимального правдоподобия параметров модели.

Две стадии: Две стадии: E(xpectation)E(xpectation) – вывод скрытых данных из наблюдаемых – вывод скрытых данных из наблюдаемых

данных (документы) и текущей модели (кластеры)данных (документы) и текущей модели (кластеры)

M(aximization) M(aximization) – максимизация правдоподобия в – максимизация правдоподобия в предположении, что скрытые данные известныпредположении, что скрытые данные известны

Page 25: 03 кластеризация документов

EMEM-алгоритм-алгоритм

Большое число свободных параметров может Большое число свободных параметров может приводить к переобучению. приводить к переобучению.

Сокращение размерности: выбор Сокращение размерности: выбор дискриминирующих свойств для каждого дискриминирующих свойств для каждого кластера.кластера.

Сложность: Сложность: O(kO(k22n)n) Нестабильность, зависимость от инициализации.Нестабильность, зависимость от инициализации.

Page 26: 03 кластеризация документов

Модель фон Мисес-Модель фон Мисес-ФишераФишера

На самом деле, распределение текстов по кластерам На самом деле, распределение текстов по кластерам гауссианами описывается плохо. Было доказано, что гауссианами описывается плохо. Было доказано, что лучше всего подходит лучше всего подходит vMFvMF-распределение:-распределение:

Z – Z – функция Бесселя (фактор функция Бесселя (фактор нормализации). Затем нормализации). Затем используют алгоритм, используют алгоритм, похожий на похожий на emem. Качество . Качество получается лучше, чем получается лучше, чем spherical k-means.spherical k-means.

Page 27: 03 кластеризация документов

СодержаниеСодержание

1.1. Оценка качества кластеризацииОценка качества кластеризации2.2. Применение векторной модели в Применение векторной модели в

кластеризациикластеризации3.3. Иерархическая кластеризацияИерархическая кластеризация4.4. «Разделяющая» кластеризация«Разделяющая» кластеризация5.5. Генеративные алгоритмыГенеративные алгоритмы6.6. Спектральная кластеризацияСпектральная кластеризация7.7. Снижение размерностиСнижение размерности8.8. Модели с учетом порядка словМодели с учетом порядка слов

Page 28: 03 кластеризация документов

Спектральная Спектральная кластеризациякластеризация

Основная гипотеза: термины, которые часто встречаются Основная гипотеза: термины, которые часто встречаются вместе, описывают близкие понятия. Поэтому важна вместе, описывают близкие понятия. Поэтому важна группировка не только кластеров, но и терминов. Т.е. речь группировка не только кластеров, но и терминов. Т.е. речь идет о идет о совместной кластеризации совместной кластеризации терминов и документов.терминов и документов.

Матрица термин-документ преобразуется в двудольный граф:Матрица термин-документ преобразуется в двудольный граф:

Тогда задача кластеризации – разбить этот граф на Тогда задача кластеризации – разбить этот граф на сильно связанные компоненты.сильно связанные компоненты.

Почему спектральная: используется сразу несколько Почему спектральная: используется сразу несколько функций-критериев разбиения.функций-критериев разбиения.

Page 29: 03 кластеризация документов

Алгоритм Алгоритм divide & divide & mergemerge

Нахождение оптимального разбиения в Нахождение оптимального разбиения в графе – графе – NPNP-полная задача (на практике -полная задача (на практике означает, что алгоритм означает, что алгоритм экспоненциальный). Однако существует экспоненциальный). Однако существует аппроксимация.аппроксимация.

Две стадии:Две стадии: Иерархическая кластеризация (существует Иерархическая кластеризация (существует

метод с использованием собственных метод с использованием собственных векторов матрицы, который позволяет векторов матрицы, который позволяет избежать неэффективного попарного избежать неэффективного попарного сравнения)сравнения)

Кластеризация результатов предыдущей Кластеризация результатов предыдущей стадии с использованием стандартных стадии с использованием стандартных алгоритмов – алгоритмов – kmeanskmeans, либо другие алгоритмы, , либо другие алгоритмы, с с неизвестным заранее числом кластеровнеизвестным заранее числом кластеров

Page 30: 03 кластеризация документов

Алгоритм Алгоритм divide & divide & mergemerge

Page 31: 03 кластеризация документов

Нечеткая совместная Нечеткая совместная корреляциякорреляция

Кластеризуются сразу и термины, и документыКластеризуются сразу и термины, и документы Границы между кластерами нечеткие - термин или Границы между кластерами нечеткие - термин или

документ может входить сразу в несколько кластеров документ может входить сразу в несколько кластеров (с различными весами)(с различными весами)

Пример: Пример: Fuzzy Codok Fuzzy Codok алгоритм алгоритм

uucici – – степень вхождения документа степень вхождения документа i i в кластер с,в кластер с, v vcjcj – –

степень вхождения термина степень вхождения термина j j в кластер св кластер с,, d dij ij – – уровень уровень корреляции между документом и термином; корреляции между документом и термином; m – m – число число терминов, терминов, n – n – число документов, С – число кластеров число документов, С – число кластеров документов, документов, K – K – число кластеров терминов.число кластеров терминов.

TTuu, , TTvv – параметры, их надо подбирать – слабое место – параметры, их надо подбирать – слабое место алгоритма; оптимальные значения параметров зависят алгоритма; оптимальные значения параметров зависят от коллекции.от коллекции.

Page 32: 03 кластеризация документов

СодержаниеСодержание

1.1. Оценка качества кластеризацииОценка качества кластеризации2.2. Применение векторной модели в Применение векторной модели в

кластеризациикластеризации3.3. Иерархическая кластеризацияИерархическая кластеризация4.4. «Разделяющая» кластеризация«Разделяющая» кластеризация5.5. Генеративные алгоритмыГенеративные алгоритмы6.6. Спектральная кластеризацияСпектральная кластеризация7.7. Снижение размерностиСнижение размерности8.8. Модели с учетом порядка словМодели с учетом порядка слов

Page 33: 03 кластеризация документов

Снижение размерностиСнижение размерности

Матрица термин документ А Матрица термин документ А аппроксимируется матрицей аппроксимируется матрицей меньшего ранга меньшего ранга k Ak Akk. .

Принятая мера качества такой Принятая мера качества такой аппроксимации – норма аппроксимации – норма Фробениуса (чем меньше, тем Фробениуса (чем меньше, тем лучше):лучше):

Page 34: 03 кластеризация документов

Метод главных Метод главных компонентов (компонентов (PCA)PCA)

Главные компоненты – ортогональные (независимые) Главные компоненты – ортогональные (независимые) проекции, которые вместе описывают максимальное проекции, которые вместе описывают максимальное разнообразие в данныхразнообразие в данных

Задача эквивалентна поиску оптимального разбиения в Задача эквивалентна поиску оптимального разбиения в двудольном графедвудольном графе

Главные компоненты получаются Главные компоненты получаются из сингулярного разложения из сингулярного разложения матрицы: матрицы:

A = UA = UΣΣVVTT, , ΣΣ – диагональная – диагональная

ΣΣkk – – диагональная матрица диагональная матрица меньшего ранга, в нее входят меньшего ранга, в нее входят k k наибольших чисел из наибольших чисел из ΣΣ

Искомая проекцияИскомая проекция::

A = UA = UΣΣkkVVTT

Чем больше Чем больше kk, тем лучше , тем лучше аппроксимацияаппроксимация

Page 35: 03 кластеризация документов

Метод главных Метод главных компонентовкомпонентов

+ В результате получается оптимальная + В результате получается оптимальная аппроксимация аппроксимация

+ Различие в расстояниях внутри кластеров и + Различие в расстояниях внутри кластеров и между кластерами становится более резкиммежду кластерами становится более резким

- В новом пространстве остаются В новом пространстве остаются недискриминирующие свойства – т.е. недискриминирующие свойства – т.е. результаты метода нельзя рассматривать как результаты метода нельзя рассматривать как готовую кластеризациюготовую кластеризацию

- Компоненты должны быть ортогональными – Компоненты должны быть ортогональными – не совсем подходит для текстов, которые не совсем подходит для текстов, которые могут покрывать несколько теммогут покрывать несколько тем

- Вычислительно сложный алгоритм, не может Вычислительно сложный алгоритм, не может использоваться итеративноиспользоваться итеративно

Page 36: 03 кластеризация документов

Неотрицательная Неотрицательная факторизацияфакторизация (NMF) (NMF)

Цель: получить аппроксимацию, которая содержит Цель: получить аппроксимацию, которая содержит только дискриминирующие факторытолько дискриминирующие факторы

Исходная матрица аппроксимируется Исходная матрица аппроксимируется произведением:произведением:

A A ≈≈ UVUVTT

U – U – базовые вектора базовые вектора mxkmxk, , V – V – матрица коэффициентов матрица коэффициентов nxknxk U U может интерпретироваться как набор может интерпретироваться как набор

семантических переменных, семантических переменных, VV - - распределение распределение документов по этим темамдокументов по этим темам

Начальные значения Начальные значения U U и и V V инициализируются инициализируются случайно, затем итеративно улучшаются (случайно, затем итеративно улучшаются (emem--алгоритм)алгоритм)

Мера качества – обычно Евклидово расстояниеМера качества – обычно Евклидово расстояние ( (чем чем меньше, тем лучшеменьше, тем лучше))::

Вместо случайно инициализации можно Вместо случайно инициализации можно использовать результаты более простого метода использовать результаты более простого метода кластеризации (кластеризации (skmns)skmns)

Быстрее, чем метод главных компонентовБыстрее, чем метод главных компонентов

Page 37: 03 кластеризация документов

Мягкая спектральная Мягкая спектральная кластеризациякластеризация

Из редуцированного пространства Из редуцированного пространства трудно породить нечеткую трудно породить нечеткую кластеризацию, потому что усечение кластеризацию, потому что усечение матрицы приводит к искажениямматрицы приводит к искажениям

Выход: независимая кластеризация Выход: независимая кластеризация терминов и документов; на основе терминов и документов; на основе кластеризации терминов порождается кластеризации терминов порождается нечеткая кластеризация документов и нечеткая кластеризация документов и vice versavice versa

Page 38: 03 кластеризация документов

Мягкая спектральная Мягкая спектральная кластеризациякластеризация Пространство редуцируется методом главных Пространство редуцируется методом главных

компонентовкомпонентов Проводится кластеризация методом Проводится кластеризация методом kmeans kmeans

((или другим)или другим) Для этих кластеров порождается матрица Для этих кластеров порождается матрица PP1 1 описывает распределение терминов по описывает распределение терминов по

кластерам, кластерам, PP22 – – документовдокументов Веса терминов высчитываются с помощью Веса терминов высчитываются с помощью

трансформации трансформации A PA P22 – – проекция ценроидов проекция ценроидов в в исходное пространствоисходное пространство

Аналогичная матрица Аналогичная матрица S S порождается из порождается из кластеризации исходного пространствакластеризации исходного пространства

AATTSS11 используется как функция вхождения для используется как функция вхождения для документов, документов, APAP22 – – для терминов (используются для терминов (используются только дискриминирующие термины)только дискриминирующие термины)

Хорошее качество для пересекающихся тем, Хорошее качество для пересекающихся тем, но высокая вычислительная сложностьно высокая вычислительная сложность

Page 39: 03 кластеризация документов

LingoLingo ““description comes first”description comes first” Сокращается размерность пространстваСокращается размерность пространства Базисные вектора полученной Базисные вектора полученной

редуцированной матрицы редуцированной матрицы воспринимаются как метки кластероввоспринимаются как метки кластеров

Эти метки используются для «поиска» Эти метки используются для «поиска» документов (как в информационном документов (как в информационном поиске)поиске)

Page 40: 03 кластеризация документов

СодержаниеСодержание

1.1. Оценка качества кластеризацииОценка качества кластеризации2.2. Применение векторной модели в Применение векторной модели в

кластеризациикластеризации3.3. Иерархическая кластеризацияИерархическая кластеризация4.4. «Разделяющая» кластеризация«Разделяющая» кластеризация5.5. Генеративные алгоритмыГенеративные алгоритмы6.6. Спектральная кластеризацияСпектральная кластеризация7.7. Снижение размерностиСнижение размерности8.8. Модели с учетом порядка словМодели с учетом порядка слов

Page 41: 03 кластеризация документов

Модели с учетом Модели с учетом порядка словпорядка слов

Маша любит Васю,Маша любит Васю, Вася любит Вася любит Машу – Машу – векторная модель не векторная модель не учитывает различие, но оно естьучитывает различие, но оно есть

Гипотеза: учет порядка слов может Гипотеза: учет порядка слов может улучшить качество кластеризацииулучшить качество кластеризации

Кроме того, он позволит создавать Кроме того, он позволит создавать более разумные описания кластеров более разумные описания кластеров (не набор слов, а короткие фразы)(не набор слов, а короткие фразы)

Page 42: 03 кластеризация документов

Кластеризация на основе Кластеризация на основе суффиксных деревьевсуффиксных деревьев

Суффикс – несколько Суффикс – несколько слов с конца слов с конца предложения (вплоть предложения (вплоть до предложения до предложения целиком)целиком)

Суффиксное дерево: Суффиксное дерево: описывает все общие описывает все общие суффиксы документовсуффиксы документов

Общие суффиксы используются для Общие суффиксы используются для выделения базовых кластеров, которые выделения базовых кластеров, которые затем объединяются методом связанных затем объединяются методом связанных компонентовкомпонентов

Общая сложность алгоритма: Общая сложность алгоритма: O(n log(n))O(n log(n))

dog chased cat, dog chased mailman

Page 43: 03 кластеризация документов

Кластеризация на основе Кластеризация на основе суффиксных деревьевсуффиксных деревьев

Кластеры включают не все документы Кластеры включают не все документы (документ может иметь суффикс, которые не (документ может иметь суффикс, которые не пересекается ни с одним другим)пересекается ни с одним другим)

Не учитывается распределение слов по Не учитывается распределение слов по коллекции (не все слова одинаково полезны)коллекции (не все слова одинаково полезны)

Учитываются только совпадающие суффиксы, Учитываются только совпадающие суффиксы, не совпадающие суффиксы не учитываютсяне совпадающие суффиксы не учитываются

Проверялось на сниппетах, на длинных текстах Проверялось на сниппетах, на длинных текстах и больших коллекциях работает плохои больших коллекциях работает плохо

Можно совмещать учет порядка слов с обычной Можно совмещать учет порядка слов с обычной косинусной меройкосинусной мерой

Page 44: 03 кластеризация документов

Граф документаГраф документа Doc1: “Doc1: “cat chased rat”, “dog chased rat”cat chased rat”, “dog chased rat” Doc2: Doc2: “angry dog chased fat mailman” “mailman “angry dog chased fat mailman” “mailman

ran”ran” Doc3: “Doc3: “little dog chased ran”little dog chased ran”

Слова хранятся в вершинах, с учетом частотыСлова хранятся в вершинах, с учетом частоты Нет избыточной информации (как в суффиксных Нет избыточной информации (как в суффиксных

деревьях)деревьях) Это не алгоритм кластеризации, а модель Это не алгоритм кластеризации, а модель

документа; мера близости основана на документа; мера близости основана на перекрывающихся подграфахперекрывающихся подграфах

Лучше работает совместно с косинусной Лучше работает совместно с косинусной метрикой, но это – двойная стоимость метрикой, но это – двойная стоимость вычисленийвычислений

Page 45: 03 кластеризация документов

ЗаключениеЗаключение Качество кластеризации определяется по Качество кластеризации определяется по

стандартным мерам, при этом итоговая стандартным мерам, при этом итоговая кластеризация не всегда выглядит кластеризация не всегда выглядит «естественно»«естественно»

Проблема инициализации (итеративные Проблема инициализации (итеративные алгоритмы используют случайную алгоритмы используют случайную инициализацию)инициализацию)

Проблема описания кластеров (меток)Проблема описания кластеров (меток) Проблема числа кластеровПроблема числа кластеров Существуют другие методы кластеризации, Существуют другие методы кластеризации,

возможно, они окажутся хороши для возможно, они окажутся хороши для текстовых данныхтекстовых данных

Возможно другие меры близости, помимо Возможно другие меры близости, помимо косинусной, окажутся применимыкосинусной, окажутся применимы

Page 46: 03 кластеризация документов

ИсточникиИсточники

Nicholas O. Andrews and Edward A. Nicholas O. Andrews and Edward A. Fox, Recent Developments in Fox, Recent Developments in Document Clustering, October 16, Document Clustering, October 16, 2007 - 2007 - httphttp://://eprints.cs.vt.edueprints.cs.vt.edu//archivearchive/00001000/01//00001000/01/docclust.pdfdocclust.pdf