21
Древняя китайская классификация животных Животные подразделяются на: а) принадлежащих императору; б) набальзамированных; в) дрессирова г) молочных поросят; д) сирен; е) сказочных; ж) собак; з) включенных в данную классификацию; и) дрожащих, как сумасшедшие; к) неисчислимых; л) нарисованных самой лучшей верблюжьей кисточко м) других; н) тех, которые только что разбили цв вазу и о) тех, которые издалека напоминают мух (Хорхе Луис Борхес, Другие исследования: 1937—19 Моделирование гуманитарных процессов Лекция 6

Моделирование Гуманитарных процессов. Лекция 6

Embed Size (px)

Citation preview

Page 1: Моделирование Гуманитарных процессов. Лекция 6

Древняя китайская классификация животных

Животные подразделяются на: а) принадлежащих императору; б) набальзамированных; в) дрессированных; г) молочных поросят; д) сирен; е) сказочных; ж) бродячих собак; з) включенных в данную классификацию; и) дрожащих, как сумасшедшие; к) неисчислимых; л) нарисованных самой лучшей верблюжьей кисточкой; м) других; н) тех, которые только что разбили цветочную вазу и о) тех, которые издалека напоминают мух

(Хорхе Луис Борхес, Другие исследования: 1937—1952).

Моделирование гуманитарных процессов

Лекция 6

Page 2: Моделирование Гуманитарных процессов. Лекция 6

Классификация. Кластерный анализ

Кластер-анализ — это способ группировки многомерных объектов, основанный на представлении результатов отдельных наблюдений точками подходящего геометрического пространства с последующим выделением групп как «сгустков» этих точек.

«Кластер» (cluster) в английском языке и означает «сгусток»,

«гроздь (винограда)», «скопление (звезд)» и т. п.

Page 3: Моделирование Гуманитарных процессов. Лекция 6

Рождение метода

Первые работы, упоминающие о кластерных методах, появились давно, но большая часть литературы по кластерному анализу была написана в течение последних двух десятилетий. Импульсом для разработки многих кластерных методов послужила книга «Начала численной таксономии», опубликованная в 1963 г. двумя биологами — Робертом Сокэлом и Петером Снитом. Сокэл и Снит утверждали, что эффективная процедура для создания биологических классификаций должна обеспечивать сбор всевозможных данных об интересующих организмах, оценивать степень сходства между этими организмами и применять некоторый метод кластеризации, чтобы поместить достаточно схожие организмы в одну и ту же группу. После этого состав каждой группы можно проанализировать, чтобы выяснить, представляют ли они разные биологические виды. Фактически Сокэл и Снит полагают, что «структура отражает процесс», т. е. структура замеченных различий и сходств между организмами может служить основой для понимания эволюционного процесса.

Page 4: Моделирование Гуманитарных процессов. Лекция 6

Общий алгоритм кластеризации

несмотря на различия в целях, типах данных и примененных методах, все исследования, использующие кластерный анализ, характеризуют следующие пять основных шагов:

1) отбор выборки для кластеризации;

2) определение множества признаков, по которым будут оцениваться объекты в выборке;

3) вычисление значений той или иной меры сходства между объектами;

4) применение метода кластерного анализа для создания групп сходных объектов;

5) проверка достоверности результатов кластерного решения.

Page 5: Моделирование Гуманитарных процессов. Лекция 6

Типология задач классификации Типы входных данных• Признаковое описание — наиболее распространённый случай. Каждый

объект описывается набором своих характеристик, называемых признаками. Признаки могут быть числовыми или нечисловыми.

• Матрица расстояний между объектами. Каждый объект описывается расстояниями до всех остальных объектов обучающей выборки.

• Временной ряд или сигнал представляет собой последовательность измерений во времени. Каждое измерение может представляться числом, вектором, а в общем случае — признаковым описанием исследуемого объекта в данный момент времени.

• Изображение или видеоряд.• Встречаются и более сложные случаи, когда входные данные

представляются в виде графов, текстов, результатов запросов к базе данных, и т. д. Как правило, они приводятся к первому или второму случаю путём предварительной обработки данных и извлечения признаков.

Классификацию сигналов и изображений называют также распознаванием образов.

Page 6: Моделирование Гуманитарных процессов. Лекция 6

Типология задач классификации

Типы классов

• Двухклассовая классификация. Наиболее простой в техническом отношении случай, который служит основой для решения более сложных задач.

• Многоклассовая классификация. Когда число классов достигает многих тысяч (например, при распознавании иероглифов или слитной речи), задача классификации становится существенно более трудной.

• Непересекающиеся классы.• Пересекающиеся классы. Объект может относиться одновременно к

нескольким классам.• Нечёткие классы. Требуется определять степень принадлежности

объекта каждому из классов, обычно это действительное число от 0 до 1.

Page 7: Моделирование Гуманитарных процессов. Лекция 6

Ограничения

Многие методы кластерного анализа — довольно простые процедуры, которые, как правило, не имеют достаточного статистического обоснования.

Методы кластерного анализа разрабатывались для многих научных дисциплин, а потому несут на себе отпечатки специфики этих дисциплин.

Разные кластерные методы могут порождать и порождают различные решения для одних и тех же данных

Цель кластерного анализа заключается в поиске существующих структур. В то же время его действие состоит в привнесении структуры в анализируемые данные,

Page 8: Моделирование Гуманитарных процессов. Лекция 6

Понятие сходства. Меры сходства

В задачах классификации очень важным является факт что различные объекты показывают сходства или различия. Проблема сходства состоит не в простом отнесении объектов к тем или иным классам, а в том что что такое разбиение должно удовлетворят критериям научного знания.

Количественное определение сходства опирается на понятие метрики. При таком подходе объекты представляются точками в многомерном координатном пространстве, причем сходства и различия между ними находятся из метрических расстояний.

Размерность пространства определяется числом переменных описывающих объект.

Page 9: Моделирование Гуманитарных процессов. Лекция 6

Критерии метрик

Page 10: Моделирование Гуманитарных процессов. Лекция 6

Меры сходства

Коэффициенты корреляции

Меры расстояний

Меры ассоциативности

Вероятностные коэффициенты

Page 11: Моделирование Гуманитарных процессов. Лекция 6

Коэффициент корреляции

Page 12: Моделирование Гуманитарных процессов. Лекция 6

Меры расстояний

)()(

1

)()(

1

2)()(

1

2)()(

4

,3

,)(2

,)(1

kj

kiij

n

k

kj

kiij

n

k

kj

kiij

n

k

kj

kiij

xxMaximumd

xxd

xxd

xxd

Здесь )(kix значение признака, соответствующее k-тому признаку для респондентов

с номерами i и j, а ijd расстояние между этими респондентами в признаковом

пространстве.

Page 13: Моделирование Гуманитарных процессов. Лекция 6

Ассоциативные коэффициенты

Меры ассоциативности применяются когда требуется определить сходство между объектами описываемыми бинарными переменными.

Для этого используется таблица ассоциативности2х2. 1 означает наличие переменной, 0 – отсутствие.

Простой коэффициент встречаемости

Коэффициент Жаккара

Page 14: Моделирование Гуманитарных процессов. Лекция 6

Ассоциативные коэффициентыКоэффициент Гауэра

 

Page 15: Моделирование Гуманитарных процессов. Лекция 6

Иерархическая кластеризацияСтратегия классификации– способ объединения элементов в кластеры.

Для случая иерархической кластеризации элементы объединяются в кластеры последовательно попарно с заменой элементов на новый элемент.

При этом стратегия выбирается из общего правила

|| mjmiijmjjmiimk dddddd

 

Page 16: Моделирование Гуманитарных процессов. Лекция 6

Пример. Гибкая стратегия.Гибкая стратегия соответствует выбору .0,25.0,625.021

ijjkikkn dddd 25.0625.0625.0

5

4

3

2

1

00.28.26.34.5

0.208.14.28.4

8.28.102.10.3

6.34.22.105.1

4.58.40.35.10

54321

ikd

ij

Page 17: Моделирование Гуманитарных процессов. Лекция 6

Шаг 1. На первом шаге алгоритма в качестве первых элементов кластера выбираются два элемента с наименьшим по всей матрице расстоянием. В данном случае это элементы с номерами i=2 j=3, расстояние между которыми равно 2.123 d

Новому кластеру, состоящему из двух элементов 2 и 3, присваивается следующий номер после номера последнего элемента. В данном случае этот номер равен 6.

5

4

3

2

1

00.28.26.34.5

0.208.14.28.4

8.28.102.10.3

6.34.22.105.1

4.58.40.35.10

54321

ikd

ij

6

5

4

1

07.3325.25125.2

7.300.24.5

325.20.208.4

5125.24.58.40

6541

ikd

ii

Page 18: Моделирование Гуманитарных процессов. Лекция 6

Шаг 2

6

5

4

1

07.3325.25125.2

7.300.24.5

325.20.208.4

5125.24.58.40

6541

ikd

ii

7

6

1

0266.3875.5

266.305125.2

875.55125.20

761

ikd

ji

3.2660.225.07.3625.0325.2625.0

5.8750.225.04.5625.08.4625.0

67

17

d

d

Page 19: Моделирование Гуманитарных процессов. Лекция 6

Шаг 3

7

6

1

0266.3875.5

266.305125.2

875.55125.20

761

ikd

ji

8

7

0088.5

088.50

87

ikd

ji

5.0885125.225.0266.3625.0875.5625.078 d

Page 20: Моделирование Гуманитарных процессов. Лекция 6

Дендрограмма

8 7

6

1.2.

2.0

2.515

d

5.09

1 2 3 4 5

Page 21: Моделирование Гуманитарных процессов. Лекция 6

Литература

http://www.machinelearning.ru/wiki/index.php?title=Категория:Классификация

Мандель И.Д. Кластерный Анализ, Москва. Финансы и Статистика,1988

Факторный, дискриминационный и кластерный анализ. Москва. Финансы и Статистика,1988