43
Семинар "Нейроинформатика " Санкт-Петербург 2008 1 Системный анализ данных в задаче нейросетевой классификации Дорогов А.Ю. Каф. Автоматики и процессов управления Санкт-Петербургского государственного электротехнического университета «ЛЭТИ»

Системный анализ данных в задаче нейросетевой классификации

Embed Size (px)

DESCRIPTION

Системный анализ данных в задаче нейросетевой классификации. Дорогов А.Ю. Каф. Автоматики и процессов управления Санкт-Петербургского государственного электротехнического университета «ЛЭТИ». ПРОБЛЕМЫ КОЛЛЕКТИВНОЙ КЛАССИФИКАЦИИ. 1. Противоречия в данных. - PowerPoint PPT Presentation

Citation preview

Page 1: Системный анализ данных в задаче нейросетевой классификации

Семинар "Нейроинформатика" Санкт-Петербург 2008

1

Системный анализ данных в задаче нейросетевой

классификации

Дорогов А.Ю. Каф. Автоматики и процессов

управления Санкт-Петербургского государственного

электротехнического университета «ЛЭТИ»

Page 2: Системный анализ данных в задаче нейросетевой классификации

Семинар "Нейроинформатика" Санкт-Петербург 2008

2

ПРОБЛЕМЫ КОЛЛЕКТИВНОЙ КЛАССИФИКАЦИИ

• 1. Противоречия в данных.• 2. Области компетенции

частных классификаторов.• 3. Малые обучающие выборки. • 4. Интеграция частных

решений.

Page 3: Системный анализ данных в задаче нейросетевой классификации

Семинар "Нейроинформатика" Санкт-Петербург 2008

3

Область компетенции классификатора

• Под областью компетенции понимается подмножество объектов признакового подпространства, в пределах которого определена сфера действия частного классификатора с заданным подмножеством распознаваемых образов.

• Главная проблема заключается в отсутствии достоверного критерия однородности для признакового поля области компетенции.

Page 4: Системный анализ данных в задаче нейросетевой классификации

Семинар "Нейроинформатика" Санкт-Петербург 2008

4

Предлагаемые решения

• 1. Локализация однородных артефактов признакового пространства.

• 2. Индуктивная схема объединения однородных локальностей.

• 3. Выделение стереотипов поведения.• 4. Статистическая верификация

эталонных моделей.• 5. Слабообученные частные

нейросетевые классификаторы.• 6. Голосующий алгоритм интеграции

частных классификаций.

Page 5: Системный анализ данных в задаче нейросетевой классификации

Семинар "Нейроинформатика" Санкт-Петербург 2008

5

Содержание

• Алгебраическая модель знакового графа.

• Принципы локальной балансировки.• Структурный портрет системы

данных.• Верификация эталонных моделей.• Коллективная классификация

образов.• Результаты экспериментов.

Page 6: Системный анализ данных в задаче нейросетевой классификации

Семинар "Нейроинформатика" Санкт-Петербург 2008

6

Триангуляция знаковых графов

• Декомпозиция согласованного контура

• Треугольник противоречий

x1

x2

x3

x1

x2

x3

x4

Page 7: Системный анализ данных в задаче нейросетевой классификации

Семинар "Нейроинформатика" Санкт-Петербург 2008

7

Варианты согласования треугольника противоречий

x1

x2

x3 x1

x2

x3

x1

x2

x3 x1

x2

x3

а) б)

с) д)

Page 8: Системный анализ данных в задаче нейросетевой классификации

Семинар "Нейроинформатика" Санкт-Петербург 2008

8

Полная модель знакового треугольника

• Внутренние связи - двусторонние, симметричные

• Внешние связи - односторонние

x1

x2

x3 y1

a ba

ca

011

101

110

3

2

1

321

x

x

x

xxx

C

Page 9: Системный анализ данных в задаче нейросетевой классификации

Семинар "Нейроинформатика" Санкт-Петербург 2008

9

Матричная интерпретация

• Алгебраическая система знакового графа

Системная матрица

.0

0

321

321

1321

xxx

xxx

yxxx

111

111

111

A

3

2

1

x

x

x

XYAX CIA

Page 10: Системный анализ данных в задаче нейросетевой классификации

Семинар "Нейроинформатика" Санкт-Петербург 2008

10

Баланс полносвязанных графов

• Теорема. Если в полносвязанном знаковом графе отрицательные связи образуют связанный подграф, в котором существуют, по крайней мере, две вершины, связанные отрицательными связями со всеми другими вершинами подграфа, то исходный граф несбалансирован и определитель его системной матрицы равен нулю.

Page 11: Системный анализ данных в задаче нейросетевой классификации

Семинар "Нейроинформатика" Санкт-Петербург 2008

11

Оценка степени обусловленности системной

матрицы• Топологические формула расчета

определителя

• Разложение графа по вершине

skjkjkjjj LLLLLL ,

iia

ssiitii La

Page 12: Системный анализ данных в задаче нейросетевой классификации

Семинар "Нейроинформатика" Санкт-Петербург 2008

12

Элементарные графы

• Диполь и ленточный граф

x1 x3

a

1)

x1 x3 x2

a b

2)

01 2 a

;101 2 a

Page 13: Системный анализ данных в задаче нейросетевой классификации

Семинар "Нейроинформатика" Санкт-Петербург 2008

13

Концепция ближайшего окружения

• Тетраэдр окружения

x2

x3 x1

f

Page 14: Системный анализ данных в задаче нейросетевой классификации

Семинар "Нейроинформатика" Санкт-Петербург 2008

14

Теорема «О разделении граней»

x1

f

x2

x3

α

β γ

l r

b

c d

a

1lrb blradrcalcdb

1cdb 1cdbЕсли в основании тетраэдра размещен несбалансированный треугольник, то только две из четырех граней тетраэдра могут быть согласованы.

1

Page 15: Системный анализ данных в задаче нейросетевой классификации

Семинар "Нейроинформатика" Санкт-Петербург 2008

15

Морфология многовершинной структуры

x2

x3

f2 f4

f5 f1

f3

x1

Особая вершина

База

Вершины окружения

Вершины окружения

Page 16: Системный анализ данных в задаче нейросетевой классификации

Семинар "Нейроинформатика" Санкт-Петербург 2008

16

Разделяющая структураОсевая симметрия треугольника выделяется

однозначно, если построенная многовершинная структура из тетраэдров окружения удовлетворяет следующим условиям:1) Количество согласованных треугольников в структуре равно N, тогда как число не согласованных треугольников в ней, включая основание равно 2N.2) Только одно ребро основания (база) определяет с вершинами окружения N согласованных треугольников.3) Сумма согласованных треугольников, образованных вершинами окружения и двумя другими ребрами основания структуры равна N.

Page 17: Системный анализ данных в задаче нейросетевой классификации

Семинар "Нейроинформатика" Санкт-Петербург 2008

17

Варианты согласования многовершинной структуры

Фактор 1 Фактор 2 Фактор 2 Фактор 1

Page 18: Системный анализ данных в задаче нейросетевой классификации

Семинар "Нейроинформатика" Санкт-Петербург 2008

18

Ориентированная разделяющая структура

1 2

Фактор 1 Фактор 2

Вершина базы Left

Вершина базы Right

Особая вершина

Page 19: Системный анализ данных в задаче нейросетевой классификации

Семинар "Нейроинформатика" Санкт-Петербург 2008

19

Разделяющая структура в реальных данных

1+

5-

6-

10+

18+

21+

23+

33+

35+

39+

40+

41+

43-

53+

45+

46+

47+

51+

52+

11

Factor1 Factor2

Page 20: Системный анализ данных в задаче нейросетевой классификации

Семинар "Нейроинформатика" Санкт-Петербург 2008

20

Эталонная модель

1-

5+

6+

10-

18-

21-

23-

33-

35-

39-

40-

41-

43+

53+

45+

46+

47+

51+

52+

11

Factor1 Factor2

Page 21: Системный анализ данных в задаче нейросетевой классификации

Семинар "Нейроинформатика" Санкт-Петербург 2008

21

Концепция открытой локальности

1+

5-

6-

10+

18+

21+

23+

33+

35+39+

40+41+

43-

53+

45+

46+

47+

51+

52+

11

Factor1 Factor2

Page 22: Системный анализ данных в задаче нейросетевой классификации

Семинар "Нейроинформатика" Санкт-Петербург 2008

22

Интегрированная SHARE

• Анализ

x1

1lF

F

α β

1rF

F

2lF

F

2rF

F

b1 b2

l1

l2 r1

r2

d

x2 x5

x4 x3

с

221

21drl

222223

12crl

5

13

Page 23: Системный анализ данных в задаче нейросетевой классификации

Семинар "Нейроинформатика" Санкт-Петербург 2008

23

Поляризация факторов ISHARE

2LF

F

x1

x2 x3

x4 x5

1LF

F

1RF

F

2RF

F

LF

F

RF

F

b1

b2

2121 , RRRLLL FFFFFF

Page 24: Системный анализ данных в задаче нейросетевой классификации

Семинар "Нейроинформатика" Санкт-Петербург 2008

24

ISHARE в реальных данных13+

11+

18-

21-

35-

1-

6+

14-

33-

39-

40-

41-

47

Factor1 Factor2

Page 25: Системный анализ данных в задаче нейросетевой классификации

Семинар "Нейроинформатика" Санкт-Петербург 2008

25

Многофакторные модели

• Дуплет «Подобие (SIM)» и модели iBase

α

l2

b

r1

r2

d

x3

β

2LF

F

1RF

F

2RF

F

l1

x2

x1

x4

1LF

F

Page 26: Системный анализ данных в задаче нейросетевой классификации

Семинар "Нейроинформатика" Санкт-Петербург 2008

26

Двухфакторные модели взаимодействий

• Дуплеты SWI

α

b1

b2

l

r1

r2

d

x1 x2

x3

x4

β

1LF

F

1RF

F

2RF

F

2LF

F

α

b1

b2

l

l1

r2

d

x1 x2

x3

x4

β

1RF

F

1LF

F

2RF

F

2LF

F

SWI1 SWI2

2121 , RRRLLL FFFFFF 2121 , RLRLRL FFFFFF

Page 27: Системный анализ данных в задаче нейросетевой классификации

Семинар "Нейроинформатика" Санкт-Петербург 2008

27

Дуплет SWI в реальных данных

5

8

1

6

10

18

19

20

21

22

23

33

34

35

39

40

41

10

15

4

16

Factor1 Factor2

Page 28: Системный анализ данных в задаче нейросетевой классификации

Семинар "Нейроинформатика" Санкт-Петербург 2008

28

Оценка степени обсловленности для

дуплетов• Модель без дополнительного ребра

• Модель с дополнительным ребром

2222 8

.222222)1(2

16

Page 29: Системный анализ данных в задаче нейросетевой классификации

Семинар "Нейроинформатика" Санкт-Петербург 2008

29

Модель iBase в реальных данныхGraph model=iSIM name=iBase9

13

8

35

1

6

21

22

23

33

34

1114

1819 20

3940

41

16 24 47

Factor1 Factor2

Page 30: Системный анализ данных в задаче нейросетевой классификации

Семинар "Нейроинформатика" Санкт-Петербург 2008

30

Структурный портрет системы реальных данных

• Система данных представляет собой таблицу, состоящую из 56 количественных показателей и 214 объектов наблюдений.

• Мерой связи является коэффициент корреляции. Связи считались значимыми, если вероятность гипотезы ошибочного значения коэффициента корреляции не превышала уровня 0.05.

• Знаковый граф покрывает 55 вершин, имеет плотность 0.406 и состоит из 648 ребер, из которых 401 являются положительными и 247 отрицательными.

• В графе обнаружено 3281 треугольников, из которых 393 являются треугольниками противоречий. Максимальная степень вершины 38, минимальная 2.

Page 31: Системный анализ данных в задаче нейросетевой классификации

Семинар "Нейроинформатика" Санкт-Петербург 2008

31

Системный портрет

Тип структурной модели

Число моделей

Число локальностей

Вершинное покрытие

Объем локальностей

Число особых вершин

Число баз

Число базовых вершин

SHARE 108 52 40 4-21 13 98 39 Балансируемые SHARE

103 47 40 4-20 13 94 38

ISHARE 13 13 40 4-26 13 88 39 Балансируемые ISHARE

9 9 36 4-20 9 19 24

DOUBLET 53 17 37 6-24 12 47 30 Балансируемые DOUBLET

32 12 35 8-24 11 29 26

iBase 7 6 32 9-24 7 7 10 Балансируемые iBase

7 6 32 9-24 7 7 10

i2Edge 38 8 33 6-21 9 41 38 Балансируемые i2Edge

19 3 28 8-19 6 20 22

Page 32: Системный анализ данных в задаче нейросетевой классификации

Семинар "Нейроинформатика" Санкт-Петербург 2008

32

Наполнение локальностей SHARE

0 5 10 15 20 25 30 35 40 45 500

2

4

6

8

10

12

Page 33: Системный анализ данных в задаче нейросетевой классификации

Семинар "Нейроинформатика" Санкт-Петербург 2008

33

Вершинное покрытие для множества дуплетов

0 10 20 30 40 50

0

5

10

15

20

25

30

nz = 553

Locality Covering

Page 34: Системный анализ данных в задаче нейросетевой классификации

Семинар "Нейроинформатика" Санкт-Петербург 2008

34

Совпадение локальностей для дуплетов

0 5 10 15 20 25 30

0

5

10

15

20

25

30

nz = 204

Locality Vertex coincidence

Page 35: Системный анализ данных в задаче нейросетевой классификации

Семинар "Нейроинформатика" Санкт-Петербург 2008

35

Верификация эталонных моделей

i

yixi mymxyxK ,

ISHARE(Номер и

имя особой вершины)

Объемы кластеров

Детерминистская верификация по особой вершине

Детерминистская верификация по всем вершинам

Стохастическая верификация

Left Right Left Right Left Right

2=Y_DC 1 1 104 27 206 180

4=Cr_DC 11 11 69 65 198 200

5=Y_AC 13 13 84 80 208 209

7=Cr_AC 1 1 36 27 150 179

13=quadrant1

1 1 70 11 194 100

14=quadrant2

4 4 97 9 193 95

15=quadrant3

0 0 44 40 183 175

24=FormFac1

5 5 44 9 197 147

47=Mass3x 1 1 48 7 192 163

Page 36: Системный анализ данных в задаче нейросетевой классификации

Семинар "Нейроинформатика" Санкт-Петербург 2008

36

Семантическая классификация изображений

ПоказательЗначение

Число объектов в базе данных 214

Число классов Concept/Мodifier () 118

Размерность признакового пространства () 56

Максимальная представительность образа 24

Минимальная представительность образа 1

Page 37: Системный анализ данных в задаче нейросетевой классификации

Семинар "Нейроинформатика" Санкт-Петербург 2008

37

Представительность образов в базе данных

N=214, M=56

0 20 40 60 80 100 1200

5

10

15

20

25name=ModCon , description=-, measure=-

Links 648 PlusLinks 401 MinusLinks 247 NVertex 55 GraphDensity 0.40602MaxVertexDegree 38 MinVertexDegree 2 Triangles 3674 Concert_Triangles 3281 Contr_Triangles 393

Page 38: Системный анализ данных в задаче нейросетевой классификации

Семинар "Нейроинформатика" Санкт-Петербург 2008

38

Классификатор эталонной модели

NN1

NNs1

NN2

NNs2

NNk

NNsk

X1

PA

PB

PC

Эталонная модель

Схема голосования

Page 39: Системный анализ данных в задаче нейросетевой классификации

Семинар "Нейроинформатика" Санкт-Петербург 2008

39

Схема голосования

jF

jFllj

Голосующий вес классификатора l по образу j

l

ljj Jjq ,,2,1, Результаты голосования

*jAX jj

j qq max* Решение о принадлежности к образу

Page 40: Системный анализ данных в задаче нейросетевой классификации

Семинар "Нейроинформатика" Санкт-Петербург 2008

40

Иерархия голосований

X1

P

Эталонная модель Left Схема

голосования Эталонная модель Right

Локальность 1

X2 Эталонная модель Left Схема

голосования Эталонная модель Right

Локальность 2

Схема голосования

Локальность R

Page 41: Системный анализ данных в задаче нейросетевой классификации

Семинар "Нейроинформатика" Санкт-Петербург 2008

41

Обобщающая способность классификатора

0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.50

0.05

0.1

0.15

0.2

0.25

Sigma fraction

Err

or

Classificator Amount=277:277+26

Page 42: Системный анализ данных в задаче нейросетевой классификации

Семинар "Нейроинформатика" Санкт-Петербург 2008

42

Пример 2, N=535, M=99

0 50 100 150 200 2500

10

20

30

40

50

60name=ModCon, description=-, measure=-

Links 2556 PlusLinks 1447 MinusLinks 1109 NVertex 99 GraphDensity 0.50614MaxVertexDegree 80 MinVertexDegree 17 Triangles 30744 Concert_Triangles 25805 Contr_Triangles 4939

Page 43: Системный анализ данных в задаче нейросетевой классификации

Семинар "Нейроинформатика" Санкт-Петербург 2008

43

Обобщающая способность классификатора. Пример 2.

0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.50.05

0.1

0.15

0.2

0.25

0.3

Sigma fraction

Err

or

Classificator Amount=945:945+84