33
1 Задачи Задачи классификации и классификации и дискриминации дискриминации Родионова Оксана Евгеньевна [email protected] Институт химической физики РАН, Российское хемометрическое общество

Задачи классификации и дискриминации

  • Upload
    neila

  • View
    66

  • Download
    8

Embed Size (px)

DESCRIPTION

Задачи классификации и дискриминации. Родионова Оксана Евгеньевна [email protected] Институт химической физики РАН, Российское хемометрическое общество. Метод - МГК Задачи Анализ структуры, поиск латентных переменных Классификация и дискриминация. Методы : РГК, РЛС Задачи - PowerPoint PPT Presentation

Citation preview

Page 1: Задачи классификации и дискриминации

1

Задачи Задачи классификации и классификации и дискриминациидискриминации

Родионова Оксана Евгеньевна[email protected]

Институт химической физики РАН,Российское хемометрическое общество

Page 2: Задачи классификации и дискриминации

2

Два класса решаемых задачДва класса решаемых задач

Метод- МГК

Задачи

1. Анализ структуры, поиск латентных переменных

2. Классификация и дискриминация

X11 X12 … X1m X21 X22 … . . .

. . .

X . . .

. . .

… … … Xn1 Xnm

Y1 Y2

Y . . .

… Yn

Методы : РГК, РЛС

Задачи

1. Построение модели Y(X)

2. Прогнозирование

Классификация и Классификация и дискриминациядискриминация

SIMCA , PLS-DSIMCA , PLS-D

Page 3: Задачи классификации и дискриминации

3

Распознавание образов(pattern recognition)

Без обучения ( Unsupervised)

C обучением (Supervised)

Не известно существуют ли скрытые группы и сколько их

Основной механизм – поиск аналогий в свойствах объектов

Основная цель – установить наличие групп (классов), а также выявить причины кластеризации

Известно о том, какой группе принадлежат объекты из исходного набора данных

Основной механизм – построение модели, для той или иной группы

Основная цель классификации новых образцов

Page 4: Задачи классификации и дискриминации

4

Геометрическая интерпретацияГеометрическая интерпретация

Объекты / образцы/ измерения – точки в пространстве признаков

Вектор признаков – переменные (степени свободы) образующие p-мерную систему координат (p – число переменных в векторе признаков)

Группы или классы – ограниченные подпространства в пространстве признаков: гиперкуб, гиперсфера и т.п.

Page 5: Задачи классификации и дискриминации

5

Возможные ситуацииВозможные ситуации

Идеальный случай разделения

Имеются выбросы

Page 6: Задачи классификации и дискриминации

6

Возможные ситуацииВозможные ситуации

X1

X2

Один из классов не имеет четкой структуры Классы перекрываются

Page 7: Задачи классификации и дискриминации

7

Этапы классификацииЭтапы классификации

I. Выявление различных групп

• МГК

• Факторный анализ

• Кластерный анализ

• ...

II. Построение модели

III. Классификация новых образцов

} • SIMCA• PLS-D• ...

Page 8: Задачи классификации и дискриминации

8

Метод Метод SIMCASIMCASoft Independent Modeling of Class Analogy

Метод формального независимого моделирования аналогий классов

((Svante Wold, 1976Svante Wold, 1976))

X1

X2 1. Каждый класс моделируется отдельно с помощью МГК

2. Новый образец проверяется на принадлежность каждому построенному классу

Page 9: Задачи классификации и дискриминации

9

Этап-1. МоделированиеЭтап-1. Моделирование

Каждый класс из обучающего набора независимо моделируется МГК с разным числом главных компонент.

1. Предварительная подготовка данных

2. Удаление выбросов

3. Проверка модели и оценка значимости выбранного числа ГК

Page 10: Задачи классификации и дискриминации

10

Этап -2. Построение контрольных Этап -2. Построение контрольных уровней и анализ моделиуровней и анализ модели

Размах h:расстояние

внутри модели

Отклонение d:расстояние до модели

Page 11: Задачи классификации и дискриминации

11

Этап – 3. Сравнение моделейЭтап – 3. Сравнение моделей

Вычисление расстояний между классами и оценка влияние переменных на разделение по классам

Page 12: Задачи классификации и дискриминации

12

Этап классификации новых Этап классификации новых образцовобразцов

*

Расстояние от образца до класса

Расстояние от образца до центра модели

Page 13: Задачи классификации и дискриминации

13

Результаты классификации Результаты классификации методом методом SIMCASIMCA

• Классификационная таблица

• График Si vs hi

• График Si/S0 vs hi

• График Кумана

• Расстояние между моделями

• Модельная мощность переменных

• Дискриминационная мощность переменных

Расстояние от образца до одной модели}

Расстояние от образца до 2-х разных моделей

Page 14: Задачи классификации и дискриминации

14

подлинные образцы; поддельные

Распознавание фальсифицированных Распознавание фальсифицированных лекарств - лекарств - II

Пищеварительный фермент. Образцы - таблетки в оболочке

0.1

0.2

0.3

0.4

0.5

0.6

4000 4500 5000 5500 6000 6500 7000 7500

см-1

AU

Всего: 55 образцов

3 серии подлинных образцов 30 таб.

4 серии поддельных образцов 25 таб.

Измерения: спектры диффузнного рассеяния 4000 –7500 см-1. (1750 длин волн).

Page 15: Задачи классификации и дискриминации

15

Предварительный МГК анализПредварительный МГК анализ

G

F06

F08

F14

F15

-0.2

-0.1

0.0

0.1

0.2

0.3

-0.2 0.0 0.2PC1

PC255 образцов55 образцов

Обучающий набор:

25 подлинных образцов

Проверочный набор:

• 25 поддельных образцов

• 5 подлинных образцов

Page 16: Задачи классификации и дискриминации

16

Построение модели для одного Построение модели для одного классакласса

-0.20

-0.10

0.00

0.10

-0.30 -0.20 -0.10 0.00 0.10 0.20

PC1

PC2

-0.20

-0.10

0.00

0.10

-0.30 -0.20 -0.10 0.00 0.10 0.20

PC1

PC2

F15

F15

F15

F15F15

F14

F14

F14F14

F14

F08

F08

F08F08

F08

F06

F06

F06

F06

F06

F06

F06

F06F06

F06

-0.20

-0.10

0.00

0.10

-0.30 -0.20 -0.10 0.00 0.10 0.20

PC1

PC2

Page 17: Задачи классификации и дискриминации

17

SIMCA - SIMCA - классификацияклассификация

F06

F15

F14

F08G-test

0.000

0.005

0.010

0.015

0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6

Leverge

Si

Scrit

hcrit

Si , hi

График Si vs hi (Si/S0 vs hi)

Page 18: Задачи классификации и дискриминации

18

Распознавание фальсифицированных Распознавание фальсифицированных лекарствлекарств - II - II

Бактерицидное средство.

Образцы - таблетки в оболочке

Всего: 30 образцов

2 серии подлинных образцов 10 таб.

1 серия «дженерик» образцов 10 таб.

1 серия поддельных образцов 10 таб.

Измерения: спектры диффузного рассеяния 1140 –2300 nm. ( 580 длин волн).

Page 19: Задачи классификации и дискриминации

19

Предварительный МГК анализПредварительный МГК анализ

3030 образцов образцов

Обучающий набор:

8 подлинных образцов

9 «дженерик» образцов

Проверочный набор:

• 10 поддельных образцов

• 2 подлинных образца

• 1 «дженерик»

G

V

F08F

-20.0

-15.0

-10.0

-5.0

0.0

5.0

10.0

15.0

20.0

-40.0 -20.0 0.0 20.0 40.0

PC1

PC2

Page 20: Задачи классификации и дискриминации

20

График КуманаГрафик Кумана(Cooman’s plot )(Cooman’s plot )

Расстояние от образца до 2-х

классов

Page 21: Задачи классификации и дискриминации

21

Расстояние между классамиРасстояние между классами ( ( Model Distance )Model Distance )

Расстояние от одного класса до всех остальных классов.

ModelDistance(q,q) = 1

ModelDistan(q,m) > 3 – хорошее разделение

Page 22: Задачи классификации и дискриминации

22

Дискриминационная мощность Дискриминационная мощность переменнойпеременной

((Discrimination Power )Discrimination Power )

2model class2model class

2model class2model class

jresidBB

jresidAA

jresidAB

jresidBA

ss

ssjD

Способность j-ой

переменной разделять

два класса.

Dj>3 - j-ая переменная

сильно влияет на

разделение классов.

Page 23: Задачи классификации и дискриминации

23

Модельная мощность переменнойМодельная мощность переменной ( Modeling Power )( Modeling Power )

Показывает насколько сильное влияние оказывает j-ая переменная на построение модели (класса)

Mj : 1 0

Mj > 0.3 - сильное влияние на модель

jrawjresidj ssM /1

Page 24: Задачи классификации и дискриминации

24

ПримерПример данных о процессе данных о процессеX17

9.74E-031.01E-02

-1.43E-039.07E-035.78E-03

-9.49E-04-6.79E-03-3.42E-03-9.86E-034.18E-03

-4.84E-039.44E-03

-4.99E-03-6.81E-031.23E-039.90E-033.65E-03

-6.78E-03s54 6.61E-02 -5.40E-01 7.19E-03 -2.85E-01 -5.19E-04 -5.78E-01 1.81E-04 -2.67E-04 -6.23E-05

X1 X2 X3 X4 X5 X6 X7 X8 X9

s1 -1.19E-01 7.28E-01 -2.15E-02 5.22E-01 7.06E-04 7.32E-01 3.10E-04 -6.13E-04 -5.92E-05s2 -1.37E-01 7.28E-01 -2.89E-02 6.08E-01 7.09E-04 7.02E-01 6.58E-04 -1.22E-03 -1.49E-04s3 2.51E-02 -9.15E-02 6.73E-03 -1.13E-01 -9.07E-05 -7.58E-02 -2.29E-04 4.10E-04 5.65E-05s4 -1.14E-01 6.70E-01 -2.18E-02 5.04E-01 6.50E-04 6.65E-01 3.83E-04 -7.34E-04 -7.96E-05s5 -7.93E-02 4.14E-01 -1.69E-02 3.51E-01 4.04E-04 3.98E-01 3.96E-04 -7.35E-04 -9.05E-05s6 1.51E-02 -6.38E-02 3.74E-03 -6.75E-02 -6.28E-05 -5.67E-02 -1.15E-04 2.07E-04 2.78E-05s7 7.44E-02 -5.24E-01 1.11E-02 -3.24E-01 -5.06E-04 -5.45E-01 -1.73E-05 7.92E-05 -1.07E-05s8 3.65E-02 -2.66E-01 5.12E-03 -1.59E-01 -2.56E-04 -2.78E-01 1.43E-05 -3.95E-07 -1.14E-05s9 1.36E-01 -7.06E-01 2.89E-02 -6.01E-01 -6.88E-04 -6.77E-01 -6.83E-04 1.26E-03 1.56E-04s10 -2.74E-02 3.60E-01 1.82E-03 1.12E-01 3.42E-04 4.12E-01 -4.31E-04 7.24E-04 1.22E-04s11 7.47E-02 -3.31E-01 1.80E-02 -3.34E-01 -3.25E-04 -2.99E-01 -5.30E-04 9.62E-04 1.28E-04s12 -1.17E-01 7.02E-01 -2.16E-02 5.13E-01 6.81E-04 7.03E-01 3.40E-04 -6.63E-04 -6.76E-05s13 1.06E-01 -2.82E-01 3.23E-02 -4.82E-01 -2.85E-04 -1.87E-01 -1.25E-03 2.21E-03 3.14E-04s14 7.39E-02 -5.28E-01 1.07E-02 -3.21E-01 -5.09E-04 -5.50E-01 2.49E-06 4.48E-05 -1.59E-05s15 -9.87E-03 1.02E-01 -3.21E-04 4.17E-02 9.75E-05 1.13E-01 -8.29E-05 1.36E-04 2.44E-05s16 -1.06E-01 7.68E-01 -1.52E-02 4.62E-01 7.41E-04 8.03E-01 -2.54E-05 -2.68E-05 2.88E-05s17 -4.76E-02 2.66E-01 -9.52E-03 2.10E-01 2.59E-04 2.61E-01 1.92E-04 -3.61E-04 -4.19E-05

Р

еал

иза

ци

и п

ро

цес

са

s1,

s2,

...

,s54 Ключевые переменные процесса (датчики) X1, X2, ... , X17

t1

t69

новая реализация

Page 25: Задачи классификации и дискриминации

25

Файл Файл WinesWines((Riccardo LeardiRiccardo Leardi, , Genoa, ItalyGenoa, Italy))

178 образцов 13 переменных 3 классa

Обучающий набор: 148 образцовПроверочный набор: 30 образцов

Page 26: Задачи классификации и дискриминации

26

Методы многомерной Методы многомерной классификацииклассификации

Предварительный МГК анализПредварительный МГК анализ

График счетов T1 vs. T2

Page 27: Задачи классификации и дискриминации

27

План упражненияПлан упражнения

1. Предобработка исходных данных

2. Построение общей МГК модели

3. Построение индивидуальных МГК моделей для каждого класса. Сохранение моделей

4. Классификация новых образцов :

Таблица результатов, график Si vs. hi , график Кумана

5. Анализ результатов

Page 28: Задачи классификации и дискриминации

28

ПЛС дискриминация ПЛС дискриминация PLS-DPLS-D

X-переменные (дескрипторы)

Класс 1 (I1)

Класс 2 (I2)

Класс N (IN)

Матрица измерений 1 -1 -1

1 -1 -11 -1 -11 -1 -1

-1 1 -1-1 1 -1-1 1 -1-1 -1 1-1 -1 1-1 -1 1-1 -1 1-1 -1 1

Y1 Y2 YN Матрица принадлежности

классу

Y-переменные (индикаторы)

Page 29: Задачи классификации и дискриминации

29

Влияние ванадиевой пыли на людей(Prof. Pentti Minkkinen, Lappeenranta University of Technology, Finland)

Испытательная группа 18 человек подверженных пыли V2O5 на фабрике

Контрольная группа 17 человек

Измерялись 26 клинических показателей плазмы крови

Page 30: Задачи классификации и дискриминации

30

-5 0 5-5

-4

-3

-2

-1

0

1

2

3

4

5

VV

V

V

V

VV

V

V

V

V

V

V

V

VV

V

VCC

C

C

C

CC

C

C

C

CCC

C

C

C

C

ГК1 (29.9 %)

ГК

2 (1

7.5

%)

График счетов

Page 31: Задачи классификации и дискриминации

31

x11 x12 … … x1k

x21 x22 … … x2k

… … … …

… … … …

xi1 xi2 … … xik

xi+1,1 xi+1,2 … … xi+1,k

… … …

… … …

xn1 xn2 xnk

1

1

1

1

1

-1

-1

-1

-1

-1

Матрица дескрипторов X

CLASS C

CLASS V

Дискриминация (PLS-D)

PLS1

Матрица индикаторов Y

Page 32: Задачи классификации и дискриминации

32

-5 -4 -3 -2 -1 0 1 2 3 4-3

-2

-1

0

1

2

3

V

VV

V

V

VV

VV

V

V

V

V

V

V

VV

V

CC

C

C

C

C

CC

C

CC

C

C

C

C

C

C

ГК1

ГК2

График счетов в PLS-D

Page 33: Задачи классификации и дискриминации

33

Файл Файл WinesWines__PLSPLS

178 образцов 13 переменных 3 классa

Обучающий набор: 148 образцовПроверочный набор: 30 образцов

Файл WINES_DPLS

Матрица X

17813

Матрица Y

1783