Neyman Pearson lemma - introduction

  • View
    141

  • Download
    1

Embed Size (px)

DESCRIPTION

Introduction to Neyman-Pearson hypothesis testing paradigm

Text of Neyman Pearson lemma - introduction

  • 1. Statistische Toetsen(inleiding)De Neyman-Pearson theorieRice, paragraaf 9.2Richard D. Gill, Universiteit Leidendeze versie : 28 oktober, 2014

2. Statistische hypothesen (1) Data X, statistisch model X ~ f (x | ), , onbekend Vaak is X = (X1, , Xn) met Xi i.i.d., Stel = 0 1, waarbij 0 1 = Doel: een besluit nemen, of beslissing maken, omtrent deonbekende waarde van ligt in het ene of het anderegedeelte van de parameter ruimte? Besluit 0 f 1 3. Statistische hypothesen (2) 0 heet de nul hypothese, H0, en 1 heet dealternatieve hypothese, H1 Als we kiezen voor H1 terwijl H0 waar is, noemen we dat eenfout van de eerste soort Als we kiezen voor H0 terwijl H1 waar is, noemen we dat eenfout van de tweede soort Asymmetrie: fouten van de eerste soort zijn heel erg!Fouten van de tweede soort zijn ook erg, maar niet zo erg als we zon fout maken, helaas pindakaas, misschien haddenwe meer data moeten verzamelen of een betere proef doen 4. Statistische toets Een statistische toets is een beslissingsregel, duseen afbeelding d : X {0, 1},waar X = alle mogelijke data punten x d(x) = 0 betekent kies voor H0, end(x) = 1 kies voor H1 d is gekarakteriseerd door bijbehorendekritiek gebied (verwerpingsgebied) C = {x : d(x) = 1},acceptatie gebied A = {x : d(x) = 0} 5. Gerandomiseerde toetsen Laat ook toe, dat na waarnemen van de data,besluit wordt genomen door aanvullende loting:dat heet een gerandomiseerde toets Beslissingsregel van een gerandomiseerde toets iseen functie d : X [0, 1] met als interpretatie: alswe X = x waarnemen, dan kiezen we voor H1 metkans p = d(x) Wiskundig fraai (mooier theorie) maar in de praktijkvaak niet acceptabel! 6. Toetsingsgrootheid Vaak construeren we toetsen via een toetsingsgrootheidT = t (X): een statistiek, dwz functie van de data, metwaardes in R Een eenzijdige toets gebaseerd op T is een toets metverwerpingsgebied (kritiek gebied) van de vorm{x: t (x) > k } of , of c Verwerp H0 als (x) < c Verwerp H0 met kans p als (x) = c De toets wordt dus bepaald door de waardes vanc [0, ] en van p [0, 1] Bij c = 0 beperken we ons tot p = 1, bij c = tot p = 0 12. Neyman-Pearson lemma Zij d de beslissingsregel van een likelihood ratio toets Zij = E(d(X) | H0), het significantie niveau van deze toets (kans van foutvan de eerste soort) Zij = 1 E(d(X) | H1), het complement van hetonderscheidingsvermogen (kans van fout van de tweede soort) Elk andere toets met significantie niveau heeft een minstens zo grotekans van fout van de tweede soort (Neyman-Pearson) Aangezien we likelihood ratio toetsen kunnen bedenken met elkegewenste significantie niveau [0, 1] (hier loont het, wiskundig, omgerandomiseerde toetsen toe te laten!), kunnen we dus rustig alle anderetoetsen gewoon vergeten elke toets die je kan bedenken kan verbeterdworden door over te stappen op een (ev. gerandomiseerde) LR toets 13. Sufficiency en hetNeyman-Pearson lemma H0 en H1 allebei enkelvoudig, 0 en 1 bestaan elk uitmaar n punt, 0 resp. 1 (x) = f0(x | 0) / f1(x | 1) ; = {0, 1} = (X) is voldoende voor , want de conditioneleverdeling van X, gegeven = c, hangt niet meer van af Neyman-Pearson lemma laat zien dat een statistischetoets wat niet gebaseerd is op deze voldoendegrootheid, verbeterd kan worden door over te stappen opeen toets gebaseerd op 14. cf: Rao-Blackwell stelling:sterkere versie Stel T is een voldoende grootheid voor en eenschatter voor met eindige verwachtingswaarde Stel : R R+, (0) = 0, is convex; heet een verlies functie Risico van is r () = E(( ) | ) Definieer = E( | T); dit is een schatter (functie van dedata) omdat de conditionele verdeling van X gegeven T = tniet van de parameter afhangt; en het is een functie van T Dan is de risico (verwachte verlies) van beter dan dat van (meer precies: minstens zo goed, ongeacht )Bewijs: Jensen 15. Bewijs Neyman-Pearson Ik bekijk hier alleen het geval c (0, ) Stel d is een LR-toets met drempelwaarde c en significantie niveau Stel d* is een andere toets met significantie niveau hoogstens Dus d = 0 en d d* 0 op { > c}; d = 1 en d d* 0 op { < c} I( > c)(d d*) f0 c I( > c)(d d*) f1 I( = c)(d d*) f0 = c I( = c)(d d*) f1 I( < c)(d d*) f0 c I( < c)(d d*) f1 Integreer over x en sommeer de drie regels, geeft * c ((1 ) ( 1 *)) oftewel * ( *)/c 0 16. Uniform meestonderscheidende toetsen Meestal zijn H0 en H1 niet enkelvoudig Maar soms is NP toch nuttig Voorbeeld: X ~ Bin(n, ); H0: 0 vs H1: > 0 Voor willekeurig , met < is de log LR voor enkelvoudigehypothesen H0: vs H1: gelijk aan X (log (/(1 ) log ( /(1 )) endat is een monotoon dalende functie van X De bijbehorende LR toetsen zijn allemaal van de vorm: verwerp als X > xc,accepteer als X < xc, randomiseer als X = xc Stel dus P(Bin(n, 0) xc) = Bekijk (niet gerandomiseerde) toets d verwerp H0 desda X xc 17. Uniform meest onderscheidendetoetsen (vervolg) Bekijk (niet gerandomiseerde) toets d verwerp H0 desda X xc Voor 0 is P(Bin(n, ) xc) dus deze toets heeft niveau Voor elke andere toets met significantie niveau geldt wegensNP (toets = 0 vs = 1 > 0) dat zijnonderscheidingsvermogen tegen = 1 > 0 kleiner is dwz, voor elke toets d*, met significantie niveau hoogstens ,geldt () *() voor alle 1 Toets d is uniform meest onderscheidend niveau 18. En verder? In de meeste situaties bestaat helaas geen uniformmeest onderscheidende toets Bijvoorbeeld: X ~ Bin(n, ); H0: = 0 vs H1: 0 Soms als we ons eerst beperken door andere prettigenevenvoorwaarden in te stellen, bijv zuiverheid,invariantie dan is er wel een beste toets binnen dezo ontstane kleinere klasse NP geeft verder inspiratie bij het ontwerpen van toetsen,bijvoorbeeld gegeneraliseerde likelihood ratio toetsen 19. p-waardes Stel we gaan een toets uitvoeren gebaseerd op toetsingsgrootheid T; stel dat onze toetsde vorm heeft verwerp H0 tgv H1 bij grote waardes van T Nadat we het experiment gedaan hebben, nemen we waar T = t Definieer p(t) = sup {P( T t | ) : 0} De waargenomen waarde p(t ) van p(T ) heet de p-waarde (p-value) Idee: statisticus rapporteert p-waarde, laat keuze van over aan consument Als consument een significantie niveau hanteert p-waarde, dan verwerpt hij H0 Als consument een significantie niveau hanteert < p-waarde, dan accepteert hij H0 p-waardes zijn slecht begrepen en leiden vaak tot rampen (Lucia de B; probiotica proef) p(t) is niet de kans dat H0 niet waar is (Higgs boson) 20. Alternatief bewijs NP lemma:methode Lagrange multiplicator (1) Stel d is een LR-toets met drempelwaarde c > 0 ensignificantie niveau Stel d* is een andere toets met significantie niveauhoogstens We kunnen d* aanpassen (ev. mbv. randomisatie) zdd. zijnsignificantie niveau stijgt tot precies , zonder verlies vanonderscheidingsvermogen Zonder verlies van algemeenheid veronderstel ik dus datbeide toetsen dezelfde kans hebben op een fout van deeerste soort 21. Alternatief bewijs NP lemma:methode Lagrange multiplicator (2) Zij cLR de drempel waarde van de LR toets in kwestie, die ik nu dLR zal noemen Noem zijn significantie niveau LR Definieer kLR = 1 / cLR Voor een willekeurige (ev. gerandomiseerde) toets d definieer (d ) = kans op type 1 fout = E(d(X) | H0) (d ) = kans op type 2 fout = 1 - E(d(X) | H1) (d ) = onderscheidingsvermogen = 1 (d ) We willen laten zien dat dLR de oplossing is van het constrained optimisation problem:maximaliseer (d ) over toetsen d onder de bijvoorwaarde: (d ) = LR Bekijk de onbeperkte optimalisatie probleem: maximaliseer (d ) kLR (d ) over allegerandomiseerde toetsen d (dus: zonder bijvoorwaarde) 22. Alternatief bewijs NP lemma:methode Lagrange multiplicator (3) Maximise (d ) kLR (d ) = E(d(X) | H1) kLR E(d(X) | H0)= d(x) (f1(x) f0(x) / cLR) dx, by choice of the decision function d Soln. to unconstrained optimisation problem is: choose d(x) as large as possible ( = 1) where (f1(x) f0(x) / cLR) is positive, as small as possible ( = 0) where (f1(x) f0(x) / cLR) is negative arbitrarily, where (f1(x) f0(x) / cLR) = 0 Thus dLR solves the unconstrained optimisation problem Since, if we constrain d to satisfy (d ) = LR, the term kLR (d ) becomesconstant, it follows that dLR also solves the constrained optimisationproblem