Моделирование Гуманитарных процессов. Лекция 6

Preview:

Citation preview

Древняя китайская классификация животных

Животные подразделяются на: а) принадлежащих императору; б) набальзамированных; в) дрессированных; г) молочных поросят; д) сирен; е) сказочных; ж) бродячих собак; з) включенных в данную классификацию; и) дрожащих, как сумасшедшие; к) неисчислимых; л) нарисованных самой лучшей верблюжьей кисточкой; м) других; н) тех, которые только что разбили цветочную вазу и о) тех, которые издалека напоминают мух

(Хорхе Луис Борхес, Другие исследования: 1937—1952).

Моделирование гуманитарных процессов

Лекция 6

Классификация. Кластерный анализ

Кластер-анализ — это способ группировки многомерных объектов, основанный на представлении результатов отдельных наблюдений точками подходящего геометрического пространства с последующим выделением групп как «сгустков» этих точек.

«Кластер» (cluster) в английском языке и означает «сгусток»,

«гроздь (винограда)», «скопление (звезд)» и т. п.

Рождение метода

Первые работы, упоминающие о кластерных методах, появились давно, но большая часть литературы по кластерному анализу была написана в течение последних двух десятилетий. Импульсом для разработки многих кластерных методов послужила книга «Начала численной таксономии», опубликованная в 1963 г. двумя биологами — Робертом Сокэлом и Петером Снитом. Сокэл и Снит утверждали, что эффективная процедура для создания биологических классификаций должна обеспечивать сбор всевозможных данных об интересующих организмах, оценивать степень сходства между этими организмами и применять некоторый метод кластеризации, чтобы поместить достаточно схожие организмы в одну и ту же группу. После этого состав каждой группы можно проанализировать, чтобы выяснить, представляют ли они разные биологические виды. Фактически Сокэл и Снит полагают, что «структура отражает процесс», т. е. структура замеченных различий и сходств между организмами может служить основой для понимания эволюционного процесса.

Общий алгоритм кластеризации

несмотря на различия в целях, типах данных и примененных методах, все исследования, использующие кластерный анализ, характеризуют следующие пять основных шагов:

1) отбор выборки для кластеризации;

2) определение множества признаков, по которым будут оцениваться объекты в выборке;

3) вычисление значений той или иной меры сходства между объектами;

4) применение метода кластерного анализа для создания групп сходных объектов;

5) проверка достоверности результатов кластерного решения.

Типология задач классификации Типы входных данных• Признаковое описание — наиболее распространённый случай. Каждый

объект описывается набором своих характеристик, называемых признаками. Признаки могут быть числовыми или нечисловыми.

• Матрица расстояний между объектами. Каждый объект описывается расстояниями до всех остальных объектов обучающей выборки.

• Временной ряд или сигнал представляет собой последовательность измерений во времени. Каждое измерение может представляться числом, вектором, а в общем случае — признаковым описанием исследуемого объекта в данный момент времени.

• Изображение или видеоряд.• Встречаются и более сложные случаи, когда входные данные

представляются в виде графов, текстов, результатов запросов к базе данных, и т. д. Как правило, они приводятся к первому или второму случаю путём предварительной обработки данных и извлечения признаков.

Классификацию сигналов и изображений называют также распознаванием образов.

Типология задач классификации

Типы классов

• Двухклассовая классификация. Наиболее простой в техническом отношении случай, который служит основой для решения более сложных задач.

• Многоклассовая классификация. Когда число классов достигает многих тысяч (например, при распознавании иероглифов или слитной речи), задача классификации становится существенно более трудной.

• Непересекающиеся классы.• Пересекающиеся классы. Объект может относиться одновременно к

нескольким классам.• Нечёткие классы. Требуется определять степень принадлежности

объекта каждому из классов, обычно это действительное число от 0 до 1.

Ограничения

Многие методы кластерного анализа — довольно простые процедуры, которые, как правило, не имеют достаточного статистического обоснования.

Методы кластерного анализа разрабатывались для многих научных дисциплин, а потому несут на себе отпечатки специфики этих дисциплин.

Разные кластерные методы могут порождать и порождают различные решения для одних и тех же данных

Цель кластерного анализа заключается в поиске существующих структур. В то же время его действие состоит в привнесении структуры в анализируемые данные,

Понятие сходства. Меры сходства

В задачах классификации очень важным является факт что различные объекты показывают сходства или различия. Проблема сходства состоит не в простом отнесении объектов к тем или иным классам, а в том что что такое разбиение должно удовлетворят критериям научного знания.

Количественное определение сходства опирается на понятие метрики. При таком подходе объекты представляются точками в многомерном координатном пространстве, причем сходства и различия между ними находятся из метрических расстояний.

Размерность пространства определяется числом переменных описывающих объект.

Критерии метрик

Меры сходства

Коэффициенты корреляции

Меры расстояний

Меры ассоциативности

Вероятностные коэффициенты

Коэффициент корреляции

Меры расстояний

)()(

1

)()(

1

2)()(

1

2)()(

4

,3

,)(2

,)(1

kj

kiij

n

k

kj

kiij

n

k

kj

kiij

n

k

kj

kiij

xxMaximumd

xxd

xxd

xxd

Здесь )(kix значение признака, соответствующее k-тому признаку для респондентов

с номерами i и j, а ijd расстояние между этими респондентами в признаковом

пространстве.

Ассоциативные коэффициенты

Меры ассоциативности применяются когда требуется определить сходство между объектами описываемыми бинарными переменными.

Для этого используется таблица ассоциативности2х2. 1 означает наличие переменной, 0 – отсутствие.

Простой коэффициент встречаемости

Коэффициент Жаккара

Ассоциативные коэффициентыКоэффициент Гауэра

 

Иерархическая кластеризацияСтратегия классификации– способ объединения элементов в кластеры.

Для случая иерархической кластеризации элементы объединяются в кластеры последовательно попарно с заменой элементов на новый элемент.

При этом стратегия выбирается из общего правила

|| mjmiijmjjmiimk dddddd

 

Пример. Гибкая стратегия.Гибкая стратегия соответствует выбору .0,25.0,625.021

ijjkikkn dddd 25.0625.0625.0

5

4

3

2

1

00.28.26.34.5

0.208.14.28.4

8.28.102.10.3

6.34.22.105.1

4.58.40.35.10

54321

ikd

ij

Шаг 1. На первом шаге алгоритма в качестве первых элементов кластера выбираются два элемента с наименьшим по всей матрице расстоянием. В данном случае это элементы с номерами i=2 j=3, расстояние между которыми равно 2.123 d

Новому кластеру, состоящему из двух элементов 2 и 3, присваивается следующий номер после номера последнего элемента. В данном случае этот номер равен 6.

5

4

3

2

1

00.28.26.34.5

0.208.14.28.4

8.28.102.10.3

6.34.22.105.1

4.58.40.35.10

54321

ikd

ij

6

5

4

1

07.3325.25125.2

7.300.24.5

325.20.208.4

5125.24.58.40

6541

ikd

ii

Шаг 2

6

5

4

1

07.3325.25125.2

7.300.24.5

325.20.208.4

5125.24.58.40

6541

ikd

ii

7

6

1

0266.3875.5

266.305125.2

875.55125.20

761

ikd

ji

3.2660.225.07.3625.0325.2625.0

5.8750.225.04.5625.08.4625.0

67

17

d

d

Шаг 3

7

6

1

0266.3875.5

266.305125.2

875.55125.20

761

ikd

ji

8

7

0088.5

088.50

87

ikd

ji

5.0885125.225.0266.3625.0875.5625.078 d

Дендрограмма

8 7

6

1.2.

2.0

2.515

d

5.09

1 2 3 4 5

Литература

http://www.machinelearning.ru/wiki/index.php?title=Категория:Классификация

Мандель И.Д. Кластерный Анализ, Москва. Финансы и Статистика,1988

Факторный, дискриминационный и кластерный анализ. Москва. Финансы и Статистика,1988

Recommended