03 кластеризация документов

Кластеризация Кластеризация документовдокументов

Лидия Михайловна Лидия Михайловна ПивовароваПивоварова

Системы понимания Системы понимания текстатекста

ВведениеВведение

Кластеризация документов – это процесс Кластеризация документов – это процесс обнаружения естественных групп в обнаружения естественных групп в коллекции документов.коллекции документов.

Кластеризацию может служить как чисто Кластеризацию может служить как чисто исследовательской цели (выяснить исследовательской цели (выяснить структуру коллекции), так и лучшему структуру коллекции), так и лучшему поиску и представлению информации; поиску и представлению информации; классический пример: группировка по классический пример: группировка по темам в системах автоматического сбора темам в системах автоматического сбора новостей.новостей.

Кластеризация: мягкая/жесткая, Кластеризация: мягкая/жесткая, иеррархическая/плоскаяиеррархическая/плоская

СодержаниеСодержание

1.1. Оценка качества кластеризацииОценка качества кластеризации2.2. Применение векторной модели в Применение векторной модели в

кластеризациикластеризации3.3. Иерархическая кластеризацияИерархическая кластеризация4.4. «Разделяющая» кластеризация«Разделяющая» кластеризация5.5. Генеративные алгоритмыГенеративные алгоритмы6.6. Спектральная кластеризацияСпектральная кластеризация7.7. Снижение размерностиСнижение размерности8.8. Модели с учетом порядка словМодели с учетом порядка слов

Оценка качества Оценка качества кластеризациикластеризации

Не существует единого (общепризнанного, Не существует единого (общепризнанного, применимого во всех случаях) метода применимого во всех случаях) метода оценкиоценки

Оценка предполагает, что коллекция (или Оценка предполагает, что коллекция (или часть коллекции) размечена человекомчасть коллекции) размечена человеком Кластеры Кластеры – результат кластеризации, – результат кластеризации, классы классы

– – результат ручной разметкирезультат ручной разметки Аналогичные методы могут Аналогичные методы могут

использоваться для оценки использоваться для оценки классификацииклассификации

Матрица Матрица несоответствийнесоответствий

КЛАССЫКЛАССЫ

ККЛЛААССТТЕЕРРЫЫ

AA BB CC

aa 22 22 00

bb 22 22 00

cc 00 00 88

- способ примитивный, зато наглядный- способ примитивный, зато наглядный

Метрики заимствованные Метрики заимствованные из информационного из информационного

поискапоискаПолнота (Полнота (recall):recall):R = tp / (tp+fn)R = tp / (tp+fn)

Точность (Точность (presicion):presicion):P = tp / (tp+fn)P = tp / (tp+fn)

F-F-мера:мера:

Аккуратность Аккуратность (accuracy)(accuracy)::A = (tp + tn) / (tp + tn +fp A = (tp + tn) / (tp + tn +fp

+fn)+fn)

РелеваРелевантныентные

НерелеНерелевантнывантны

ее

НайденНайденныеные

tptp fpfp

НенайдНенайденныеенные

fnfn tntn

Применительно к Применительно к кластеризациикластеризации

i – i – классы, классы, j – j – кластеры, кластеры, n –n – общее число общее число документов, документов, nnii – – число документов в классе число документов в классе ii

Т.е. для каждого класса выбираем кластер, Т.е. для каждого класса выбираем кластер, который ему больше соответствует который ему больше соответствует (argmax)(argmax), , суммируем меры соответствия (суммируем меры соответствия (FF)) для всех для всех классов, при этом чем больше класс, тем больше классов, при этом чем больше класс, тем больше его вес в общей сумме (его вес в общей сумме (nni i ).).

F-F-мера показывает общее качество кластеризации, мера показывает общее качество кластеризации, но не показывает как устроены сами кластеры.но не показывает как устроены сами кластеры.

ЧистотаЧистота

i – i – классы, классы, j – j – кластеры, кластеры, n –n – общее число документов, общее число документов, nnj j – – число документов в кластере число документов в кластере jj, , P(i,j) – P(i,j) – доля документов доля документов из класса из класса i i в кластере в кластере j j ..

Т.е. берем долю доминирующего (Т.е. берем долю доминирующего (argmaxargmax) класса в кластере ) класса в кластере ((P(i,j)P(i,j)), и суммируем по всем кластерам, при этом чем ), и суммируем по всем кластерам, при этом чем больше кластер, тем больше его вес в сумме (больше кластер, тем больше его вес в сумме (nnj j ).).

Чем выше значение чистоты, тем лучше. В идеальном Чем выше значение чистоты, тем лучше. В идеальном случае случае P=P=1.1.

ЭнтропияЭнтропия

i – i – классы, классы, j – j – кластеры, кластеры, n –n – общее число документов, общее число документов, nnj j – – число документов в кластере число документов в кластере jj, , P(i,j) – P(i,j) – доля документов доля документов из класса из класса i i в кластере в кластере j j , , k – k – число кластеров.число кластеров.

Энтропия – степень «размазанности» класса по кластерам. Энтропия – степень «размазанности» класса по кластерам. Чем меньше, тем лучше, в идеале Чем меньше, тем лучше, в идеале E=0E=0..

Взаимная информацияВзаимная информация Чистота и энтропия хороши тогда, когда число классов и Чистота и энтропия хороши тогда, когда число классов и

кластеров совпадает. В других случаях лучше кластеров совпадает. В других случаях лучше MI (MI (или или NMINMI – – нормализованная взаимная информация).нормализованная взаимная информация).

n – n – общее число документов, общее число документов, nnhh – число документов в – число документов в классе классе hh, , nnll – число документов в кластере – число документов в кластере l, nl, nh,lh,l – – число документов в пересечении.число документов в пересечении.

n

Классnh

nh,l Кластерnl

СтабильностьСтабильностьС помощью взаимной информации можно С помощью взаимной информации можно

считать стабильность, т.е. степень считать стабильность, т.е. степень пересечения кластеризации при разных пересечения кластеризации при разных прогонах одного и того же алгоритма.прогонах одного и того же алгоритма.

ΛΛ – множество различных – множество различных кластеризаций, кластеризаций, λλ – конкретная – конкретная кластеризация, кластеризация, r – r – число кластеров.число кластеров.




Векторная модельВекторная модель Коллекция из Коллекция из n n документовдокументов и и m m различных различных

терминов представляется в виде матрицы терминов представляется в виде матрицы mmxxnn, где каждый документ – вектор в , где каждый документ – вектор в m-m-мерном пространстве.мерном пространстве.

Веса терминов можно считать по разному: Веса терминов можно считать по разному: частота, бинарная частота (входит – не частота, бинарная частота (входит – не входит), входит), tf*idftf*idf……

Порядок слов не учитывается (Порядок слов не учитывается (bag of words)bag of words) Матрица очень большая (большое число Матрица очень большая (большое число

различных терминов в гетерогенной различных терминов в гетерогенной коллекции).коллекции).

В матрице много нулейВ матрице много нулей

Предобработка Предобработка Фильтрация (удаление спецсимволов Фильтрация (удаление спецсимволов

и пунктуации)и пунктуации) Токенизация (разбиваем текст на Токенизация (разбиваем текст на

термины – слова или словосочетания)термины – слова или словосочетания) Стемминг (приведение слова к Стемминг (приведение слова к

основе)основе) Удаление стоп-словУдаление стоп-слов Сокращение (удаление Сокращение (удаление

низкочастотных слов)низкочастотных слов)




Иерархическая Иерархическая кластеризациякластеризация

На начальной стадии каждый документ На начальной стадии каждый документ – сам себе кластер. – сам себе кластер.

На каждом шаге документы На каждом шаге документы объединяются до построения полного объединяются до построения полного дерева.дерева.

Число кластеров заранее не Число кластеров заранее не оговаривается.оговаривается.

Не подходит для больших объемов Не подходит для больших объемов данных (подсчет расстояния на каждой данных (подсчет расстояния на каждой стадии).стадии).




«Разделяющая» «Разделяющая» кластеризациякластеризация

Классический примерКлассический пример - - kmeans:kmeans: Выбирается Выбирается k k случайных документов, случайных документов,

которые считаются центроидами которые считаются центроидами кластеров, все остальные документы кластеров, все остальные документы распределяются по кластерам по распределяются по кластерам по степени близости к центроидамстепени близости к центроидам

На следующих итерациях центроиды На следующих итерациях центроиды пересчитываются и документы пересчитываются и документы перераспределяютсяперераспределяются

Косинусная метрика лучше, чем Косинусная метрика лучше, чем Евклидово расстояниеЕвклидово расстояние

Недостатки Недостатки kmeanskmeans Результаты могут быть различными в Результаты могут быть различными в

зависимости от инициализации.зависимости от инициализации. Может останавливаться на Может останавливаться на

субоптимальном локальном минимумесубоптимальном локальном минимуме Чувствителен к шуму и случайным Чувствителен к шуму и случайным

выбросамвыбросам

Вычислительная сложностьВычислительная сложность: : где где nn – – число документов, число документов, kk – – число число

кластеров, кластеров, l l – число итераций.– число итераций.




Генеративные Генеративные алгоритмыалгоритмы

Дискриминативные алгоритмы, Дискриминативные алгоритмы, которые основаны на попарной которые основаны на попарной близости документов, имеют близости документов, имеют сложностьсложность O(n O(n22) ) по определениюпо определению. .

Генеративные алгоритмы не Генеративные алгоритмы не требуют такого сравнения, требуют такого сравнения, используя итеративные используя итеративные процедуры.процедуры.

Гауссова модельГауссова модель Предполагается, что Предполагается, что

распределение распределение документов в векторном документов в векторном пространстве – это набор пространстве – это набор Гауссовых Гауссовых распределений; каждый распределений; каждый кластер ассоциирован со кластер ассоциирован со средним распределения средним распределения и матрицей ковариации.и матрицей ковариации.

• Ковариация:

• Если между x и у нет корреляции, то ковариация равна нулю.

• Матрица ковариации: матрица, элементы которой – это попарные ковариации двух векторов.

• Если речь идет об одном и том же наборе векторов (наш случай: одни и те же документы в столбцах и строках), то матрица ковариации – это обобщение дисперсии для многомерной случайной величины.

Гауссова модельГауссова модель Вероятность того, что документ Вероятность того, что документ d d

принадлежит кластеру принадлежит кластеру θθ из набора из набора ΘΘ::

P(d| P(d| θθ) - ) - вероятность того, что документ вероятность того, что документ d d принадлежит принадлежит кластеру кластеру θθ, m – , m – размерность пространства, размерность пространства, μμ – – центроид, центроид, ΣΣ – матрица ковариации. – матрица ковариации.

Общая вероятность (правдоподобие того, что данный Общая вероятность (правдоподобие того, что данный документ описывается моделью):документ описывается моделью):

Задача кластеризации: максимизировать это число, Задача кластеризации: максимизировать это число, максимизировав каждое из слагаемых (т.е. найдя максимизировав каждое из слагаемых (т.е. найдя наилучшее среднее и матрицу ковариации для каждого наилучшее среднее и матрицу ковариации для каждого кластера).кластера).

Expectation maximization Expectation maximization ((EMEM-алгоритм)-алгоритм)

Итеративная процедура для нахождения Итеративная процедура для нахождения максимального правдоподобия параметров модели.максимального правдоподобия параметров модели.

Две стадии: Две стадии: E(xpectation)E(xpectation) – вывод скрытых данных из наблюдаемых – вывод скрытых данных из наблюдаемых

данных (документы) и текущей модели (кластеры)данных (документы) и текущей модели (кластеры)

M(aximization) M(aximization) – максимизация правдоподобия в – максимизация правдоподобия в предположении, что скрытые данные известныпредположении, что скрытые данные известны

EMEM-алгоритм-алгоритм

Большое число свободных параметров может Большое число свободных параметров может приводить к переобучению. приводить к переобучению.

Сокращение размерности: выбор Сокращение размерности: выбор дискриминирующих свойств для каждого дискриминирующих свойств для каждого кластера.кластера.

Сложность: Сложность: O(kO(k22n)n) Нестабильность, зависимость от инициализации.Нестабильность, зависимость от инициализации.

Модель фон Мисес-Модель фон Мисес-ФишераФишера

На самом деле, распределение текстов по кластерам На самом деле, распределение текстов по кластерам гауссианами описывается плохо. Было доказано, что гауссианами описывается плохо. Было доказано, что лучше всего подходит лучше всего подходит vMFvMF-распределение:-распределение:

Z – Z – функция Бесселя (фактор функция Бесселя (фактор нормализации). Затем нормализации). Затем используют алгоритм, используют алгоритм, похожий на похожий на emem. Качество . Качество получается лучше, чем получается лучше, чем spherical k-means.spherical k-means.




Спектральная Спектральная кластеризациякластеризация

Основная гипотеза: термины, которые часто встречаются Основная гипотеза: термины, которые часто встречаются вместе, описывают близкие понятия. Поэтому важна вместе, описывают близкие понятия. Поэтому важна группировка не только кластеров, но и терминов. Т.е. речь группировка не только кластеров, но и терминов. Т.е. речь идет о идет о совместной кластеризации совместной кластеризации терминов и документов.терминов и документов.

Матрица термин-документ преобразуется в двудольный граф:Матрица термин-документ преобразуется в двудольный граф:

Тогда задача кластеризации – разбить этот граф на Тогда задача кластеризации – разбить этот граф на сильно связанные компоненты.сильно связанные компоненты.

Почему спектральная: используется сразу несколько Почему спектральная: используется сразу несколько функций-критериев разбиения.функций-критериев разбиения.

Алгоритм Алгоритм divide & divide & mergemerge

Нахождение оптимального разбиения в Нахождение оптимального разбиения в графе – графе – NPNP-полная задача (на практике -полная задача (на практике означает, что алгоритм означает, что алгоритм экспоненциальный). Однако существует экспоненциальный). Однако существует аппроксимация.аппроксимация.

Две стадии:Две стадии: Иерархическая кластеризация (существует Иерархическая кластеризация (существует

метод с использованием собственных метод с использованием собственных векторов матрицы, который позволяет векторов матрицы, который позволяет избежать неэффективного попарного избежать неэффективного попарного сравнения)сравнения)

Кластеризация результатов предыдущей Кластеризация результатов предыдущей стадии с использованием стандартных стадии с использованием стандартных алгоритмов – алгоритмов – kmeanskmeans, либо другие алгоритмы, , либо другие алгоритмы, с с неизвестным заранее числом кластеровнеизвестным заранее числом кластеров

Алгоритм Алгоритм divide & divide & mergemerge

Нечеткая совместная Нечеткая совместная корреляциякорреляция

Кластеризуются сразу и термины, и документыКластеризуются сразу и термины, и документы Границы между кластерами нечеткие - термин или Границы между кластерами нечеткие - термин или

документ может входить сразу в несколько кластеров документ может входить сразу в несколько кластеров (с различными весами)(с различными весами)

Пример: Пример: Fuzzy Codok Fuzzy Codok алгоритм алгоритм

uucici – – степень вхождения документа степень вхождения документа i i в кластер с,в кластер с, v vcjcj – –

степень вхождения термина степень вхождения термина j j в кластер св кластер с,, d dij ij – – уровень уровень корреляции между документом и термином; корреляции между документом и термином; m – m – число число терминов, терминов, n – n – число документов, С – число кластеров число документов, С – число кластеров документов, документов, K – K – число кластеров терминов.число кластеров терминов.

TTuu, , TTvv – параметры, их надо подбирать – слабое место – параметры, их надо подбирать – слабое место алгоритма; оптимальные значения параметров зависят алгоритма; оптимальные значения параметров зависят от коллекции.от коллекции.




Снижение размерностиСнижение размерности

Матрица термин документ А Матрица термин документ А аппроксимируется матрицей аппроксимируется матрицей меньшего ранга меньшего ранга k Ak Akk. .

Принятая мера качества такой Принятая мера качества такой аппроксимации – норма аппроксимации – норма Фробениуса (чем меньше, тем Фробениуса (чем меньше, тем лучше):лучше):

Метод главных Метод главных компонентов (компонентов (PCA)PCA)

Главные компоненты – ортогональные (независимые) Главные компоненты – ортогональные (независимые) проекции, которые вместе описывают максимальное проекции, которые вместе описывают максимальное разнообразие в данныхразнообразие в данных

Задача эквивалентна поиску оптимального разбиения в Задача эквивалентна поиску оптимального разбиения в двудольном графедвудольном графе

Главные компоненты получаются Главные компоненты получаются из сингулярного разложения из сингулярного разложения матрицы: матрицы:

A = UA = UΣΣVVTT, , ΣΣ – диагональная – диагональная

ΣΣkk – – диагональная матрица диагональная матрица меньшего ранга, в нее входят меньшего ранга, в нее входят k k наибольших чисел из наибольших чисел из ΣΣ

Искомая проекцияИскомая проекция::

A = UA = UΣΣkkVVTT

Чем больше Чем больше kk, тем лучше , тем лучше аппроксимацияаппроксимация

Метод главных Метод главных компонентовкомпонентов

+ В результате получается оптимальная + В результате получается оптимальная аппроксимация аппроксимация

+ Различие в расстояниях внутри кластеров и + Различие в расстояниях внутри кластеров и между кластерами становится более резкиммежду кластерами становится более резким

- В новом пространстве остаются В новом пространстве остаются недискриминирующие свойства – т.е. недискриминирующие свойства – т.е. результаты метода нельзя рассматривать как результаты метода нельзя рассматривать как готовую кластеризациюготовую кластеризацию

- Компоненты должны быть ортогональными – Компоненты должны быть ортогональными – не совсем подходит для текстов, которые не совсем подходит для текстов, которые могут покрывать несколько теммогут покрывать несколько тем

- Вычислительно сложный алгоритм, не может Вычислительно сложный алгоритм, не может использоваться итеративноиспользоваться итеративно

Неотрицательная Неотрицательная факторизацияфакторизация (NMF) (NMF)

Цель: получить аппроксимацию, которая содержит Цель: получить аппроксимацию, которая содержит только дискриминирующие факторытолько дискриминирующие факторы

Исходная матрица аппроксимируется Исходная матрица аппроксимируется произведением:произведением:

A A ≈≈ UVUVTT

U – U – базовые вектора базовые вектора mxkmxk, , V – V – матрица коэффициентов матрица коэффициентов nxknxk U U может интерпретироваться как набор может интерпретироваться как набор

семантических переменных, семантических переменных, VV - - распределение распределение документов по этим темамдокументов по этим темам

Начальные значения Начальные значения U U и и V V инициализируются инициализируются случайно, затем итеративно улучшаются (случайно, затем итеративно улучшаются (emem--алгоритм)алгоритм)

Мера качества – обычно Евклидово расстояниеМера качества – обычно Евклидово расстояние ( (чем чем меньше, тем лучшеменьше, тем лучше))::

Вместо случайно инициализации можно Вместо случайно инициализации можно использовать результаты более простого метода использовать результаты более простого метода кластеризации (кластеризации (skmns)skmns)

Быстрее, чем метод главных компонентовБыстрее, чем метод главных компонентов

Мягкая спектральная Мягкая спектральная кластеризациякластеризация

Из редуцированного пространства Из редуцированного пространства трудно породить нечеткую трудно породить нечеткую кластеризацию, потому что усечение кластеризацию, потому что усечение матрицы приводит к искажениямматрицы приводит к искажениям

Выход: независимая кластеризация Выход: независимая кластеризация терминов и документов; на основе терминов и документов; на основе кластеризации терминов порождается кластеризации терминов порождается нечеткая кластеризация документов и нечеткая кластеризация документов и vice versavice versa

Мягкая спектральная Мягкая спектральная кластеризациякластеризация Пространство редуцируется методом главных Пространство редуцируется методом главных

компонентовкомпонентов Проводится кластеризация методом Проводится кластеризация методом kmeans kmeans

((или другим)или другим) Для этих кластеров порождается матрица Для этих кластеров порождается матрица PP1 1 описывает распределение терминов по описывает распределение терминов по

кластерам, кластерам, PP22 – – документовдокументов Веса терминов высчитываются с помощью Веса терминов высчитываются с помощью

трансформации трансформации A PA P22 – – проекция ценроидов проекция ценроидов в в исходное пространствоисходное пространство

Аналогичная матрица Аналогичная матрица S S порождается из порождается из кластеризации исходного пространствакластеризации исходного пространства

AATTSS11 используется как функция вхождения для используется как функция вхождения для документов, документов, APAP22 – – для терминов (используются для терминов (используются только дискриминирующие термины)только дискриминирующие термины)

Хорошее качество для пересекающихся тем, Хорошее качество для пересекающихся тем, но высокая вычислительная сложностьно высокая вычислительная сложность

LingoLingo ““description comes first”description comes first” Сокращается размерность пространстваСокращается размерность пространства Базисные вектора полученной Базисные вектора полученной

редуцированной матрицы редуцированной матрицы воспринимаются как метки кластероввоспринимаются как метки кластеров

Эти метки используются для «поиска» Эти метки используются для «поиска» документов (как в информационном документов (как в информационном поиске)поиске)




Модели с учетом Модели с учетом порядка словпорядка слов

Маша любит Васю,Маша любит Васю, Вася любит Вася любит Машу – Машу – векторная модель не векторная модель не учитывает различие, но оно естьучитывает различие, но оно есть

Гипотеза: учет порядка слов может Гипотеза: учет порядка слов может улучшить качество кластеризацииулучшить качество кластеризации

Кроме того, он позволит создавать Кроме того, он позволит создавать более разумные описания кластеров более разумные описания кластеров (не набор слов, а короткие фразы)(не набор слов, а короткие фразы)

Кластеризация на основе Кластеризация на основе суффиксных деревьевсуффиксных деревьев

Суффикс – несколько Суффикс – несколько слов с конца слов с конца предложения (вплоть предложения (вплоть до предложения до предложения целиком)целиком)

Суффиксное дерево: Суффиксное дерево: описывает все общие описывает все общие суффиксы документовсуффиксы документов

Общие суффиксы используются для Общие суффиксы используются для выделения базовых кластеров, которые выделения базовых кластеров, которые затем объединяются методом связанных затем объединяются методом связанных компонентовкомпонентов

Общая сложность алгоритма: Общая сложность алгоритма: O(n log(n))O(n log(n))

dog chased cat, dog chased mailman

Кластеризация на основе Кластеризация на основе суффиксных деревьевсуффиксных деревьев

Кластеры включают не все документы Кластеры включают не все документы (документ может иметь суффикс, которые не (документ может иметь суффикс, которые не пересекается ни с одним другим)пересекается ни с одним другим)

Не учитывается распределение слов по Не учитывается распределение слов по коллекции (не все слова одинаково полезны)коллекции (не все слова одинаково полезны)

Учитываются только совпадающие суффиксы, Учитываются только совпадающие суффиксы, не совпадающие суффиксы не учитываютсяне совпадающие суффиксы не учитываются

Проверялось на сниппетах, на длинных текстах Проверялось на сниппетах, на длинных текстах и больших коллекциях работает плохои больших коллекциях работает плохо

Можно совмещать учет порядка слов с обычной Можно совмещать учет порядка слов с обычной косинусной меройкосинусной мерой

Граф документаГраф документа Doc1: “Doc1: “cat chased rat”, “dog chased rat”cat chased rat”, “dog chased rat” Doc2: Doc2: “angry dog chased fat mailman” “mailman “angry dog chased fat mailman” “mailman

ran”ran” Doc3: “Doc3: “little dog chased ran”little dog chased ran”

Слова хранятся в вершинах, с учетом частотыСлова хранятся в вершинах, с учетом частоты Нет избыточной информации (как в суффиксных Нет избыточной информации (как в суффиксных

деревьях)деревьях) Это не алгоритм кластеризации, а модель Это не алгоритм кластеризации, а модель

документа; мера близости основана на документа; мера близости основана на перекрывающихся подграфахперекрывающихся подграфах

Лучше работает совместно с косинусной Лучше работает совместно с косинусной метрикой, но это – двойная стоимость метрикой, но это – двойная стоимость вычисленийвычислений

ЗаключениеЗаключение Качество кластеризации определяется по Качество кластеризации определяется по

стандартным мерам, при этом итоговая стандартным мерам, при этом итоговая кластеризация не всегда выглядит кластеризация не всегда выглядит «естественно»«естественно»

Проблема инициализации (итеративные Проблема инициализации (итеративные алгоритмы используют случайную алгоритмы используют случайную инициализацию)инициализацию)

Проблема описания кластеров (меток)Проблема описания кластеров (меток) Проблема числа кластеровПроблема числа кластеров Существуют другие методы кластеризации, Существуют другие методы кластеризации,

возможно, они окажутся хороши для возможно, они окажутся хороши для текстовых данныхтекстовых данных

Возможно другие меры близости, помимо Возможно другие меры близости, помимо косинусной, окажутся применимыкосинусной, окажутся применимы

ИсточникиИсточники

Nicholas O. Andrews and Edward A. Nicholas O. Andrews and Edward A. Fox, Recent Developments in Fox, Recent Developments in Document Clustering, October 16, Document Clustering, October 16, 2007 - 2007 - httphttp://://eprints.cs.vt.edueprints.cs.vt.edu//archivearchive/00001000/01//00001000/01/docclust.pdfdocclust.pdf

Documents

03 кластеризация документов