28
«АКТУАЛЬНЫЕ ПРОБЛЕМЫ ЭЛЕКТРОННОГО ПРИБОРОСТРОЕНИЯ» АПЭП – 2010 Ишалина М.А., Постовалов С.Н. Исследование распределений статистик критериев однородности по многократно цензурированным выборкам фиксированного объема Факультет прикладной математики и информатики Новосибирский государственный технический университет [email protected], [email protected]

«АКТУАЛЬНЫЕ ПРОБЛЕМЫ ЭЛЕКТРОННОГО ПРИБОРОСТРОЕНИЯ» АПЭП – 2010

  • Upload
    demont

  • View
    59

  • Download
    1

Embed Size (px)

DESCRIPTION

«АКТУАЛЬНЫЕ ПРОБЛЕМЫ ЭЛЕКТРОННОГО ПРИБОРОСТРОЕНИЯ» АПЭП – 2010. Исследование распределений статистик критериев однородности по многократно цензурированным выборкам фиксированного объема. Ишалина М.А., Постовалов С.Н. Факультет прикладной математики и информатики - PowerPoint PPT Presentation

Citation preview

Page 1: «АКТУАЛЬНЫЕ ПРОБЛЕМЫ ЭЛЕКТРОННОГО ПРИБОРОСТРОЕНИЯ» АПЭП – 2010

«АКТУАЛЬНЫЕ ПРОБЛЕМЫ ЭЛЕКТРОННОГО ПРИБОРОСТРОЕНИЯ» АПЭП – 2010

Ишалина М.А., Постовалов С.Н.

 

Исследование распределений статистик критериев однородности по многократно цензурированным выборкам фиксированного объема

Факультет прикладной математики и информатики Новосибирский государственный технический университет[email protected][email protected]

Page 2: «АКТУАЛЬНЫЕ ПРОБЛЕМЫ ЭЛЕКТРОННОГО ПРИБОРОСТРОЕНИЯ» АПЭП – 2010

2

Сравнение двух кривых жизни Сравнение двух кривых жизни на сегодняшний день не

является какой-то новой проблемой, так как уже на протяжении многих лет встречается в анализе выживаемости и теории надежности.

К примеру, в анализе выживаемости - это сравнение действенности лекарственного препарата на двух группах больных, причем это может быть сравнение двух разных препаратов.

Также, может быть сравнение разных доз одного препарата, а возможны и такие опыты, когда одной группе заболевших совсем не дают никаких лекарств.

В теории надежности - это сравнение двух групп деталей на надежность, когда необходимо определить является ли новая модель или модификация какой-либо детали надежней своей предшественницы.

2

Page 3: «АКТУАЛЬНЫЕ ПРОБЛЕМЫ ЭЛЕКТРОННОГО ПРИБОРОСТРОЕНИЯ» АПЭП – 2010

3

Критерии сравнения двух кривых жизней

3

Основная проблема анализа данных выживаемости в том, что часто нет возможно наблюдать каждый объект на протяжении всего времени, до конца. Таким образом, мы имеем цензурирование или неполные данные. Для таких случаев требуются специальные статистические методы.

Рассматриваемые критерии: Критерий Гехана (1965)

Логарифмический ранговый критерий (1972)

Критерий Кокса-Мантела (1966)

Page 4: «АКТУАЛЬНЫЕ ПРОБЛЕМЫ ЭЛЕКТРОННОГО ПРИБОРОСТРОЕНИЯ» АПЭП – 2010

4

Проверяемая гипотеза

4

1

1 1 11 1 2( , ,..., )nT t t t

2

2 2 22 1 2( , ,..., )nT t t t

1n 2n

: ( ) ( )0 1 2

H S t S t

- функция выживаемость для1( )S t 1T

2 ( )S t 2T

Основная гипотеза имеет вид

и альтернативы к ней

: ( ) ( )1 1 2

H S t S t : ( ) ( )2 1 2

H S t S t : ( ) ( )3 1 2

H S t S t

jit

Пусть имеется две выборки

и

объемами и

Где это полное или цензурированное наблюдение.

- функция выживаемость для

соответственно.

(1)

Page 5: «АКТУАЛЬНЫЕ ПРОБЛЕМЫ ЭЛЕКТРОННОГО ПРИБОРОСТРОЕНИЯ» АПЭП – 2010

5

1 2( , ,..., )nT t t t

1

2

0,

1, ,i

i

i

if t Tv

if t T

1,

0, i

ii

если t цензурированное наблюдениеc

если t полное наблюдение

Вычисление статистик критериевОбъединим выборки T1 и Т2 и отсортируем полученную выборку по возрастанию.

где n=n1+n2

Пусть

и

(2)

(3)

5

Page 6: «АКТУАЛЬНЫЕ ПРОБЛЕМЫ ЭЛЕКТРОННОГО ПРИБОРОСТРОЕНИЯ» АПЭП – 2010

6

Критерий Гехана

6

,Затем вычислим величины:

Окончательная статистика критерия имеет вид:

1, & 0 & 0 & 1

1, & 0 & 0 & 1

0,

i j j i j

ij i j i i j

if t t c

h if t t c

иначе

1

.n

i j ijj

h h

G

GG

US

I

1

(1 )n

G i ii

U h

21 2

1

(1 ) .( 1)

n

G i ii

n nI h

n n

Каждого больного из первой группы сравнивают с каждым больным из второй группы.

(4)

(5)

(6)

Page 7: «АКТУАЛЬНЫЕ ПРОБЛЕМЫ ЭЛЕКТРОННОГО ПРИБОРОСТРОЕНИЯ» АПЭП – 2010

7

Логарифмический ранговый критерий

Статистика критерия имеет вид:

где:

1

1(1 ) ,

i

i ij

w cn j

,LL

L

US

I

1

,n

L ii

U w

1 2

1

1(1 )

( 1)

n

L ii

n i n nI c

n i n n

(7)

(8)

(9)

Page 8: «АКТУАЛЬНЫЕ ПРОБЛЕМЫ ЭЛЕКТРОННОГО ПРИБОРОСТРОЕНИЯ» АПЭП – 2010

88

21

(1 )n

i ii

r c

( )

1 n

i jj i

An i

2 ( )1

(1 ) ,n

CM i ii

U r c A

( ) ( )1

(1 ) 1n

CM i i ii

I c A A

CMCM

CM

US

I

Критерий Кокса-Мантела

(10)

(12)

(11)

Статистика критерия имеет вид:

где:

Page 9: «АКТУАЛЬНЫЕ ПРОБЛЕМЫ ЭЛЕКТРОННОГО ПРИБОРОСТРОЕНИЯ» АПЭП – 2010

9

Распределение статистик критериев

9

Предельный закон распределения статистик рассмотренных критериев - стандартное нормальное распределение с функцией распределения:

Таким образом, основная гипотеза отвергается, если:

где - ошибка первого рода.

2

2

0

1

2

t x

t e dxФ

(13)

(14)

211

ФS

Page 10: «АКТУАЛЬНЫЕ ПРОБЛЕМЫ ЭЛЕКТРОННОГО ПРИБОРОСТРОЕНИЯ» АПЭП – 2010

10

Основная задача При каком размере выборки расстояние между распределением статистики и предельным законом не превышает заданного?

10

sup ( ) ( )n nx

D F x F x

?n

- функция распределения статистики при фиксированном n

( )nF xгде

( )F x - функция распределения статистики при n

(15)

Page 11: «АКТУАЛЬНЫЕ ПРОБЛЕМЫ ЭЛЕКТРОННОГО ПРИБОРОСТРОЕНИЯ» АПЭП – 2010

11

Выбор

11

0.01

Для большинства задач проверки статистических гипотез, погрешность в определении достигнутого уровня значимости может быть равна 1%.

Итак, пусть

(16)

Page 12: «АКТУАЛЬНЫЕ ПРОБЛЕМЫ ЭЛЕКТРОННОГО ПРИБОРОСТРОЕНИЯ» АПЭП – 2010

12

Компьютерное моделирование

В работе мы получаем распределение статистик критериев с помощью компьютерного моделирования.

Алгоритм: моделируем две полные или цензурированные выборки объема n = n1 =n2 по заданному распределению, затем вычисляем значение статистики критерия и повторяем этот процесс N раз.

12

Page 13: «АКТУАЛЬНЫЕ ПРОБЛЕМЫ ЭЛЕКТРОННОГО ПРИБОРОСТРОЕНИЯ» АПЭП – 2010

1313

В работе выборки моделировались по закону распределения Вейбулла с функцией распределения:

( , ) 1 exp , 0x

F x x

где α=2 и λ=1.

Рассмотренная модель

(17)

Page 14: «АКТУАЛЬНЫЕ ПРОБЛЕМЫ ЭЛЕКТРОННОГО ПРИБОРОСТРОЕНИЯ» АПЭП – 2010

14

Выбор N - объема выборки статистик

14

22

2 2

( )(1 ( )),

4n n

tF x F xN t N

, ( ) ( ) 2 ( ) 1 ,n N nP F x F x Ф N

2

11 t

Какое количество выборок нужно смоделировать, чтобы погрешность моделирования была не больше заданной?Согласно ЦПТ можем построить доверительный интервал

где , ( )n NF x - эмпирическая функция распределения

0.99, 0.001 1 658 944N

Пусть

Тогда

Следовательно

(18)

(19)

(20)

Page 15: «АКТУАЛЬНЫЕ ПРОБЛЕМЫ ЭЛЕКТРОННОГО ПРИБОРОСТРОЕНИЯ» АПЭП – 2010

15

Исследования

15

Поскольку

, ,sup ( ) ( )n N n Nx

D F x F x

( )nF x неизвестно, будем наблюдать расстояние

(21)

Page 16: «АКТУАЛЬНЫЕ ПРОБЛЕМЫ ЭЛЕКТРОННОГО ПРИБОРОСТРОЕНИЯ» АПЭП – 2010

16

Распределение статистики критерия Гехана при малых объемах выборок и без цензурирования

11

Page 17: «АКТУАЛЬНЫЕ ПРОБЛЕМЫ ЭЛЕКТРОННОГО ПРИБОРОСТРОЕНИЯ» АПЭП – 2010

17

Распределение статистики критерия Гехана при малых объемах выборок с цензурирования

17

Page 18: «АКТУАЛЬНЫЕ ПРОБЛЕМЫ ЭЛЕКТРОННОГО ПРИБОРОСТРОЕНИЯ» АПЭП – 2010

18

Статистика критерия Гехана при различных процентах цензурирования, n1 = n2 = 20

18

Page 19: «АКТУАЛЬНЫЕ ПРОБЛЕМЫ ЭЛЕКТРОННОГО ПРИБОРОСТРОЕНИЯ» АПЭП – 2010

19

Dn,N для статистики Гехана (различных объем и степень цензурирования)

Объемвыборки

Степень цензурирования

0 5 10 15 20 25 30 35 40 45 50

9 0,020 0,020 0,020 0,012 0,012 0,011 0,011 0,014 0,014 0,016 0,016

10 0,017 0,017 0,009 0,009 0,010 0,010 0,011 0,011 0,012 0,012 0,014

11 0,015 0,015 0,008 0,008 0,008 0,008 0,009 0,009 0,011 0,011 0,011

12 0,014 0,014 0,007 0,007 0,008 0,008 0,008 0,009 0,009 0,010 0,010

13 0,012 0,012 0,007 0,007 0,006 0,007 0,007 0,008 0,009 0,009 0,010

14 0,011 0,011 0,005 0,006 0,006 0,006 0,007 0,007 0,008 0,009 0,010

15 0,010 0,010 0,006 0,005 0,006 0,006 0,006 0,007 0,009 0,009 0,009

16 0,009 0,009 0,004 0,005 0,005 0,006 0,006 0,007 0,008 0,009 0,010

17 0,009 0,009 0,004 0,004 0,004 0,005 0,006 0,006 0,007 0,009 0,009

18 0,008 0,008 0,003 0,004 0,004 0,005 0,006 0,007 0,008 0,009 0,009

19 0,007 0,007 0,003 0,003 0,004 0,005 0,006 0,007 0,007 0,008 0,009

20 0,007 0,003 0,003 0,003 0,005 0,006 0,006 0,007 0,008 0,008 0,009

21 0,006 0,003 0,003 0,004 0,004 0,005 0,006 0,007 0,007 0,008 0,009

22 0,006 0,002 0,003 0,004 0,004 0,005 0,006 0,006 0,007 0,008 0,009

23 0,006 0,003 0,003 0,003 0,004 0,004 0,005 0,007 0,008 0,008 0,008

24 0,006 0,002 0,003 0,003 0,003 0,005 0,006 0,006 0,007 0,008 0,009

25 0,005 0,002 0,002 0,002 0,004 0,005 0,006 0,006 0,007 0,008 0,008

Page 20: «АКТУАЛЬНЫЕ ПРОБЛЕМЫ ЭЛЕКТРОННОГО ПРИБОРОСТРОЕНИЯ» АПЭП – 2010

20

Зависимость Dn,N от n статистики критерия Гехана

y = 0,372x-1,33

R² = 0,997

0

0,002

0,004

0,006

0,008

0,01

0,012

0,014

0,016

0,018

0,02

10 100 1000

Dis

tan

ce (D

n)

Sample size (n)

50%

0%

Page 21: «АКТУАЛЬНЫЕ ПРОБЛЕМЫ ЭЛЕКТРОННОГО ПРИБОРОСТРОЕНИЯ» АПЭП – 2010

21

Dn,N для статистики логрангового критерия

Объем выборки

Уровинь цензурирования

0 5 10 15 20 25 30 35 40 45 50

10 0,014 0,014 0,009 0,009 0,009 0,009 0,011 0,011 0,013 0,013 0,015

11 0,012 0,012 0,008 0,008 0,008 0,008 0,011 0,011 0,012 0,012 0,014

12 0,012 0,012 0,008 0,008 0,008 0,010 0,010 0,012 0,012 0,014 0,015

13 0,011 0,011 0,007 0,007 0,007 0,009 0,009 0,011 0,013 0,013 0,014

14 0,010 0,010 0,007 0,007 0,007 0,008 0,010 0,010 0,012 0,014 0,015

15 0,010 0,010 0,007 0,006 0,008 0,008 0,010 0,011 0,013 0,013 0,015

16 0,009 0,009 0,006 0,006 0,007 0,009 0,009 0,011 0,012 0,014 0,016

17 0,009 0,009 0,006 0,005 0,007 0,009 0,010 0,010 0,012 0,014 0,015

18 0,008 0,008 0,005 0,005 0,006 0,008 0,010 0,011 0,013 0,015 0,016

19 0,008 0,008 0,005 0,005 0,006 0,008 0,009 0,011 0,012 0,014 0,015

20 0,008 0,005 0,004 0,006 0,007 0,009 0,010 0,012 0,013 0,015 0,016

21 0,007 0,005 0,004 0,005 0,007 0,008 0,009 0,011 0,013 0,014 0,016

25 0,006 0,005 0,003 0,004 0,007 0,008 0,009 0,011 0,013 0,015 0,016

100 0,002 0,001 0,002 0,004 0,005 0,007 0,008 0,009 0,011 0,012 0,013

200 0,002 0,001 0,002 0,003 0,005 0,006 0,007 0,008 0,009 0,009 0,010

300 0,001 0,001 0,002 0,003 0,004 0,005 0,006 0,007 0,008 0,008 0,009

400 0,001 0,001 0,002 0,003 0,004 0,005 0,006 0,007 0,007 0,007 0,008

Page 22: «АКТУАЛЬНЫЕ ПРОБЛЕМЫ ЭЛЕКТРОННОГО ПРИБОРОСТРОЕНИЯ» АПЭП – 2010

22

Зависимость Dn от n для статистики логарифмического рангового критерия

Dn(n) = 0,0947n-0,8423

R2 = 0,9863

0,000

0,002

0,004

0,006

0,008

0,010

0,012

0,014

0,016

0,018

0,020

10 100 1000

Dis

tan

ce (

Dn

)

Sample size (n)

50%

0%

Page 23: «АКТУАЛЬНЫЕ ПРОБЛЕМЫ ЭЛЕКТРОННОГО ПРИБОРОСТРОЕНИЯ» АПЭП – 2010

23

Dn,N для статистики Кокса-Мантела

23

Объем выборки

Уровень цензурироваия

0 5 10 15 20 25 30 35 40 45 50

5 0,029 0,029 0,029 0,029 0,020 0,020 0,020 0,020 0,017 0,017 0,017

6 0,023 0,023 0,023 0,023 0,011 0,011 0,011 0,007 0,007 0,007 0,008

7 0,018 0,018 0,018 0,009 0,009 0,009 0,002 0,002 0,002 0,005 0,005

8 0,015 0,015 0,015 0,008 0,008 0,001 0,001 0,001 0,006 0,006 0,009

9 0,013 0,013 0,013 0,006 0,006 0,001 0,001 0,006 0,006 0,009 0,009

10 0,013 0,013 0,006 0,006 0,001 0,001 0,006 0,006 0,009 0,009 0,013

11 0,011 0,011 0,006 0,006 0,001 0,001 0,005 0,005 0,009 0,009 0,012

12 0,010 0,010 0,005 0,005 0,001 0,004 0,004 0,008 0,008 0,012 0,015

13 0,010 0,010 0,005 0,005 0,002 0,004 0,004 0,008 0,011 0,011 0,014

14 0,009 0,009 0,005 0,002 0,002 0,004 0,007 0,007 0,010 0,014 0,016

15 0,009 0,009 0,005 0,002 0,003 0,003 0,007 0,010 0,012 0,012 0,015

16 0,008 0,008 0,005 0,002 0,003 0,006 0,006 0,009 0,012 0,014 0,017

17 0,008 0,008 0,005 0,002 0,003 0,006 0,009 0,009 0,011 0,014 0,016

18 0,008 0,008 0,004 0,002 0,003 0,005 0,008 0,011 0,013 0,015 0,017

19 0,007 0,007 0,004 0,002 0,003 0,005 0,007 0,010 0,012 0,014 0,017

20 0,007 0,004 0,002 0,002 0,005 0,007 0,009 0,012 0,013 0,015 0,017

21 0,007 0,004 0,002 0,002 0,004 0,006 0,009 0,011 0,013 0,015 0,016

22 0,006 0,004 0,002 0,002 0,004 0,006 0,009 0,010 0,012 0,014 0,017

50 0,004 0,003 0,002 0,002 0,004 0,005 0,009 0,011 0,011 0,013 0,016

100 0,002 0,001 0,002 0,002 0,004 0,005 0,008 0,009 0,011 0,012 0,013

150 0,002 0,001 0,003 0,002 0,004 0,005 0,007 0,009 0,010 0,010 0,011

200 0,001 0,001 0,002 0,002 0,004 0,005 0,007 0,008 0,009 0,010 0,011

500 0,001 0,001 0,002 0,002 0,004 0,005 0,005 0,007 0,008 0,008 0,008

Page 24: «АКТУАЛЬНЫЕ ПРОБЛЕМЫ ЭЛЕКТРОННОГО ПРИБОРОСТРОЕНИЯ» АПЭП – 2010

24

Зависимость Dn,N от n для ститисики критерия Кокса-Мантела

24

50%

0%

Page 25: «АКТУАЛЬНЫЕ ПРОБЛЕМЫ ЭЛЕКТРОННОГО ПРИБОРОСТРОЕНИЯ» АПЭП – 2010

25

Функция распределения статистики Кокса-Мантела при малом объеме выборок и проценте цензурирования 50%

Page 26: «АКТУАЛЬНЫЕ ПРОБЛЕМЫ ЭЛЕКТРОННОГО ПРИБОРОСТРОЕНИЯ» АПЭП – 2010

26

Рекомендуемый объем выборки

26

Степень цензур.Объем выборки

Гехан Логранговый Кокс-Мантел0% 16 20 165% 16 19 1610% 10 12 1015% 10 12 820% 11 15 825% 11 21 830% 12 90 10035% 12 180 20040% 12 300 Более 50045% 13 300 Более 50050% 19 400 Более 500

Для того, чтобы использовать предельное распределение в критериях однородности (с заданной погрешностью 0.01) мы должны взять выборку соответствующего объема

Page 27: «АКТУАЛЬНЫЕ ПРОБЛЕМЫ ЭЛЕКТРОННОГО ПРИБОРОСТРОЕНИЯ» АПЭП – 2010

27

Выводы Мы исследовали распространение статистик трех

критериев проверки гипотезы однородности и показали, что имеется сходимость к предельному распределению.

Эта сходимость быстрая при малом проценте цензурирования и медленная при большом проценте цензурирования.

Если объем выборки превышает полученные значения, то расстояние до предельного закона не превышает 0.01.

В противном случае мы рекомендуем определять достигаемый уровень значимости с помощью метода Монте-Карло, вместо предельного закона.

27

Page 28: «АКТУАЛЬНЫЕ ПРОБЛЕМЫ ЭЛЕКТРОННОГО ПРИБОРОСТРОЕНИЯ» АПЭП – 2010

28

Спасибо за внимание!

28