Upload
alfonso-gilbert
View
63
Download
0
Embed Size (px)
DESCRIPTION
ОБЪЕКТ. Х n. Класс 3. Х1. ДИКРИМИНАНТНЫЕ ПЕРЕМЕННЫЕ (ДП). Класс 1. ДИСКРИМИНАНТН Ы Й АНАЛИЗ. МЕТО ДЫ ИНТЕРПРЕТАЦИИ МЕТОДЫ КЛАССИФИКАЦИИ. В сумме число объектов должно всегда превышать число ДП в два раза. Ограничения на ДП: - PowerPoint PPT Presentation
Citation preview
ДИСКРИМИНАНТНЫЙ АНАЛИЗ
-МЕТОДЫ ИНТЕРПРЕТАЦИИ
- МЕТОДЫ КЛАССИФИКАЦИИ
Класс 1
Класс 3
ОБЪЕКТ
Х1
Хn
ДИКРИМИНАНТНЫЕ ПЕРЕМЕННЫЕ (ДП)
В сумме число объектов должно всегда превышать число ДП в два раза.
Ограничения на ДП:1) Ни одна переменная не может быть линейной комбинацией других. Соответственно недопустимы переменные, коэффициент корреляции которых равен 1.2) Ковариационные матрицы для генеральных совокупностей равны между собой для различных классов.3) Закон распределения для каждого класса является многомерным нормальным
Этап интерпетации
1. Снижение размерности пространства ДП путем построения КДФ – канонические дискриминантные функции
2. Выбор наиболее информативных КДФ
3. Представление объектов в пространстве на основе КДФ
Построение Канонических дискриминантных функций
х1
х4
х3
х2
КДФ1
КДФ2
объекты
Уменьшение размерности пространства
Fkm=U0+UiXikm+U2X2km+…+UpXpkm,
Fkm – значение КДФ для m-го объекта в группе К;Xikm – значение ДП Xi для m-го объекта в группе К;Ui – коэффициенты, обеспечивающие выполнение требуемых условий;
g – число классов;nk – число наблюдений в некотором классе;n. – общее число наблюдений по всем классам;Xikm – величина переменной i для m-го наблюдения в некотором классе k;Xik – средняя величина переменной i в некотором классе;Xi.. – среднее значение переменной i по всем классам (общее среднее)
ОБОЗНАЧЕНИЯ
..1 1
..
.
jjkm
g
k
n
miikmij XXXXt
1. Нахождение матрицы Т – разброс объектов между классами
2. Нахождение матрицы W – разброс объектов внутри классов
g
k
n
mjkjkmikikmij
k
XXXXW1 1
3. Нахождение матрицы В – матрицы межгрупповой суммы квадратов отклонений и попарных произведений.
Bij=tij-Wij
Для нахождения коэффициентов КДФ - необходимо решить систему уравнений
iiii vwvb 11
iiii vwvb 22
ipiipi vwvb
Решение относительно vi и
gnvu ii .
p
iiiXuu
1..0
gn
wuc iiii
.
Стандартизация коэффициентов
Вклад каждой переменной в классификацию
Максимальное количество КДФ p-g+1.
СКОЛЬКО ОСТАВИТЬ ФУКНЦИЙ И КАКИЕ?
Пример. P =6, классов g=3. Значит КДФ = 4
g
ki i11
1
1. Статистика Уилкса
2. Собственные числа
Функция1 Функция 2
SEPALLEN ,42695 ,012408SEPALWID ,52124 ,735261PETALLEN -,94726 -,401038PETALWID -,57516 ,581040
Стандартизированные коэффициенты
Соб. Канон. Wilks' числа R Lambda Chi-Sqr. df p-level
0 32,191 0,984 0,023 546,1153 8 0,0000001 ,28539 ,4711 ,7779 36,5297 3 ,000000
Наиболее значимая функция
Вид расположения объектов на основе КДФ
Root 1 vs. Root 2
SETOSA VERSICOL VIRGINIC-15 -10 -5 0 5 10 15
Root 1
-4
-3
-2
-1
0
1
2
3
4
5
Ro
ot
2
КДФ1
КДФ2
ЭТАП КЛАССИФИКАЦИИ
1. На основе классифицирующих функций
2. На основе расстояния Махалонобиса
3. Методом Байесса
1. Классифицирующие функции
Hk=bk0+bk1X1+bk2X2+…+bkpXp
jk
p
jijki Xagnb
1
jk
p
jkjk Xbb
1
0 5.0
КДФ1
КДФ2 У каждого класса своя классифицирующая функция
H1- verginic
H2- versicol
SETOSA VERSICOL VIRGINIC
SEPALLEN 23,5442 15,6982 12,446
SEPALWID 23,5879 7,0725 3,685
PETALLEN -16,4306 5,2115 12,767
PETALWID -17,3984 6,4342 21,079
Constant -86,3085 -72,8526 -104,368
Н1
Н1=-104.368+12.44х1+3.685х2+12.767х3+21.079х4
H3-setosa
Подстановка ДП нового объекта в классифицирующие функции для каждого
класса
х2
Новый объект
х1
х3х4
Н1=-104.368+12.44х1+3.685х2+12.767х3+21.079х4
Н2=-72.85+15.69х1+7.07х2+5.21х3+6.43х4
Н3=-86.30+23.54х1+23.58х2-16.43х3-17.39х4
Новый объект классифицируется к классу где h-максимальное
2. На основе расстояния Махалонобиса
jkJiki
p
i
p
jijk XXXXagnGXD
1 1
2 |
КЛАССИФИКАЦИЯ ОБЪЕКТОВ НА ОСНОВЕ УНИВЕРСАЛЬНОГО КЛАССИФИКАТОРА БАЙЕССА
Концептуальная модель дискриминантного анализа
p
pnnn
p
p
xxx
xxx
xxx
11211
11211
21122112
11121111
pp1Ков-я матрица
p
pnnn
p
p
xxx
xxx
xxx
22221
22221
22222212
12221211
pp 2
Класс W1
Класс W2
Новый объект
x1,x2,…,xp
Диск-е функции
Zi=αi1x1+αi2x2+…+ αipxp
i=1, 2, …, k
∆2 – критерий дискриминации
121
212
lnCq
CqC
1
2lnq
q12
21 ; CC
1. Дискриминантная функция Zi=αi1x1+αi2x2+…+ αipxp,i=1, 2, …, k
КЛАССИФИКАЦИЯ В СЛУЧАЕ ДВУХ КЛАССОВ
Объекты – Х=(x1,x2,…,xp). Предполагается, что класс W1 имеет распределение ),( 1
11
pppN ),( 22
ppN W2 - , где µi=(µi1, µi2,…, µip), i=1,2
Предполагаем , что ∑1=∑2=Sυj,
(1)Будем относить X к W1, если Z ≥ C, и к W2, если Z<C
Если объект Х поступил из W1, то Z имеет среднее (2) и дисперсию (3)
p
jjj
111 (2)
p p
jjjZ S
1 1
2
(3)
Если объект Х поступил из W2, то Z имеет среднее
p
jjj
122
Необходимо выбрать такие 1, …, р чтобы средние были удалены друг от друга
Введем расстояние Махаланобиса
2
2212 )(
Z
(5)
Нахождение таких коэффициентов из системы уравнений
(4)
ppppppp
pp
pp
SSS
SSS
SSS
212211
22122222211
21111122111
Эвристическая процедура классификации
Pr(1|2)
X в W1X в W2
C
Pr(2|1)
2C
2C
21
(6)
Если вектор X принадлежит W2 но CxZp
iii
1
то X относится к W1
Pr(1|2) И Pr(2|1) - вероятность ошибочной классификации
Необходимо найти такую С, чтобы Pr(1|2)+Pr(2|1) min
2
)( 21 C
1. Вычисление оценок 1, …, р, удовлетворяющих системе (6)
2. Вычисление оценок 1 и 2 по (2) и (4)
3. Вычисление постоянной С по (7)
4. Для каждого объекта вычислить значение ДФ – Z
5. Если ZC, то Х принадлежит классу W1, иначе к W2
(7)
Обозначения:
1) qi – априорная вероятность, что объект принадлежит классу Wi, i=1,22) Pr(X|Wi) - условная вероятность получения некоторого вектора наблюдений X, если известно, что объект принадлежит к классу Wi, i=1,2. 3) Pr(Wi|X) - условная вероятность того, что объект принадлежит к классу Wi при данном векторе наблюдений X (апостериорная вероятность)
Теорема Байесса.
.2,1,)|Pr()|Pr(
)|Pr()|Pr(
2211
iWXqWXq
WXqXW ii
i
Если X имеет многомерное нормальное распределение
),( 1 N или ),( 2 N
,
.2,1,(x)f(x)f
)()|Pr(
2211
iqq
xfqXW ii
i
(8)
(9)
Если Pr(X|W1)≥Pr(X|W2) X принадлежит W1
,1))(/())(( 2211 xfqxfq
Или если
X принадлежит W1
)2|1Pr()1|2Pr( 21 qq min
Это величина - вероятность того, что объект, принадлежащий к популяции W1, ошибочно классифицируется, как принадлежащий W2, или наоборот, объект из W2 ошибочно относится к W1.
(10)
(12)
p
jjj q
qx
1 1
221 )ln(2
Алгебраическое преобразование неравенства (10)Показывает, что
байесовская процедура эквивалентна отнесению X к W1,если
(13)
и к W2, если
p
jjj q
qx
1 1
221 )ln(2
(14)
Обозначения:
1) C(2|1) – стоимость ошибочной классификации из-за отнесения объекта из W1 к популяции W2.
2) Аналогично C(1|2)
Обобщенная процедура классификации Байесса состоит в отнесении X к W1, если
)1|2(
)2|1(ln
2 1
221
1 Cq
Cqx
p
jjj
(15)
и к W2, если
)1|2(
)2|1(ln
2 1
221
1 Cq
Cqx
p
jjj
(16)
q1C(2|1)Pr(2|1)+q2C(1|2)Pr(1|2) min (17)
2
2
1
)1|2Pr(K
Вероятности ошибочной классификации
2
2
1
)2|1Pr(K
(18) (19)
)1|2(
)2|1(ln
1
2
Cq
CqK (20), ∆2 задается равенством (5) где
В случае C(1|2)= C (2|1) и q1=q2=l/2,
)2
(2)|Pr(11)|Pr(2
(21)
Если X принадлежит к одной из двух известных популяций с произвольными функциями плотности f1(x) и f2(x) соответственно,
то обобщенная байесовская процедура сводится к отнесению X к W1, если
1)()2|1(
)()1|2(
22
11 xfCq
xfCq
Пример. Пусть X=(x1,x2) – вектор оценок абитуриента.
Из опыта предыдущих лет известно, что µ1=(60,57), µ2=(42,39) и
10070
70100
.
Пусть q1=1/3, q2=2/3 и примем, что C(1|2)=2000 и C(2|1)=3000 долл.
Подставляя эти значения в систему уравнений (6), получаем 100α1+70α2=18, 70α1+100α2=18, откуда α1=α2=54/510.
Дискриминантная функция имеет вид Z=(54/510)(x1+x2).
Согласно (2), ξ1=(54/510)(60+57)= 12.39, по (4) имеем ξ2=8.58.
По (7) и (20) получаем (12.39+8.58)/2=10.49 и K=ln(4/3)=0.288.
Обобщенная байессовская процедура относит объект X к классу W1, если (54/510)(x1+x2)≥10.49+0.288,
т.е. x1+x2≥101.79. согласно (15)
Величина σ2 (3) равна 3.81 и расстояние Махаланобиса ∆2 (5) равно 3.81.
Затем по формулам (18) - (19) получаем вероятности ошибочной классификации: Pr(2|1)=Ф(-0.83)=0.203; Pr(1|2)=Ф(-1.12)=0.131.
ИТОГ: 1) Абитуриент принимается, если •линейная комбинация его оценок больше или равна 101.79
2) 20.3% потенциально хороших студентов отвергается комиссией и принимается 13.1% потенциально плохих
Классификация в случае двух многомерных нормальных популяций при неизвестных
параметрах ДАНО: Имеется объект, которому соответствует вектор наблюдений X=(x1,x2,…,xp).
ТРЕБУЕТСЯ: отнести объект к классу W1 с распределением
. ),( 1
1pppN или к W2 ),( 1
2pppN
),...,( 1 ipii xxx Метод решения. Оцениваем µ1 через
∑ – объединенной выборочной ковариационной матрицей S=(Sυj), j=l,...,p; υ=l,...,p.
Т.е. заменяем µij на jix , i=l,2, j=l,...,p , и заменой Sυj на jS
υ=l,...,p.
Далее ξi, заданные (2) и (4), оцениваются величинами
in
lil
ii Zn
Z1
1(22)
а σ2 заданные (3) – величиной
p
j
p
iiz S1 1
2ˆ
(23)
Обобщенная байесовская процедура оценивания состоит в отнесении X=(x1,x2,…,xp) к W1 если
)1|2(
)2|1(ln
2 1
221
1 Cq
CqZZxZ
p
jjj
Выборочное расстояние Махаланобиса
2
2212 )(
Z
ZZD
(24)
(25)
является оценкой для ∆2 (5).
Алгоритм работы дискриминантного анализа:a)определяются коэффициенты дискриминантной функции а1,…,аp;
б) оценивается значение дискриминантной функции Zil
для каждого вектора наблюдений xil, i=1,2; l=1,…,n;
в) определяются выборочные средние 1Z и 2Z
г) рассчитывается выборочное расстояние Махаланобиса D2; д) реализуется процедура классификации в соответствии с (24).
Априорные вероятности q1 и q2
21
11ˆ nn
nq
21
22ˆ nn
nq
Несмещенная оценка расстояния Махаланобиса :
21
2
21
212 11
2
3ˆnn
pDnn
pnn
Вероятность ошибочной классификации Pr(2|1) и Pr (1|2)
Метод 1. Метод классифицирует каждый элемент выборки объема n1 из класса W1 и выборки объема n2
из W2 согласно выражению (24).
Если m1 – число наблюдений из W1, отнесенных к W2, и m2 - число наблюдений из W2 классифицированных в W1,
1
1)1|2r(Pn
m
2
2)2|1r(Pn
m
(27)
Вычисление апостериорных вероятностей.
2exp1
1)|Pr(
21
1
21
zq
qXW
КЛАССИФИКАЦИЯ В СЛУЧАЕ K классовРассмотрим случай отнесения неизвестного вектора наблюдений xpxl=(x1,...,xp) к одному из k классов Wi, i= l,...,k, k≥2.
Классификация в случае классов с произвольными
известными распределениями
Пусть fi (x) означает плотность распределения X в Wi и qi – априорную вероятность того, что вектор наблюдения X принадлежит классу Wi, i=l,...,k.
Стоимость отнесения объекта из класса Wj к Wi - C(i|j), а вероятность отнесения объекта из Wj к Wi – Pr(i|j), i,j=l,...,k; i≠j.
Обобщенная байесовская процедура классификации относит объект Х к Wi, если величина
k
ij
jjj jiCxfq
1
)|()( (30)
Значение дискриминантной функции для i-го класса
k
j
k
ij
ii jijiCq
1 1
)|Pr()|(Такая процедура минимизирует
ожидаемую стоимость ошибочной классификации
(31)
Классификация в случае классов с многомерными нормальными распределениями
Пусть популяция Wi имеет распределение ),( 1 pppiN
с функцией плотности fi(x), i=l,...,k.
δi=αi1x1+…+αipxp+γiln qi, i=1,…,k (1*)
Вектор наблюдений X относится к классу Wi, если значение δi является максимальным среди всех i=l,...,k.
Апостериорная вероятность
kie
eXW
k
j
ij
i
,...,1,)|Pr(
1
(2*)
Пусть ni - объем i-й выборки,
ix – ее вектор средних и Si – ковариационная матрица, i=l,...,k.
Тогда в формуле (1*) можно заменить µi на хi,
и ∑ – на объединенную ковариационную матрицу S:
k
ii
k
iii
kn
SnS
1
1
)1((3*)
Таким образом, оценка дискриминантной функции для i-го класса имеет вид
di=ai1x1+…+aipxp+ci+ln qi, i=l,...,k (4*)
При этом оценка апостериорной вероятности имеет вид
k
j
d
d
ij
i
e
eXW
1
)|r(P (5*)