Neyman Pearson lemma - introduction

Statistische Toetsen (inleiding)

De Neyman-Pearson theorie Rice, paragraaf 9.2

Richard D. Gill, Universiteit Leiden deze versie : 28 oktober, 2014

Statistische hypothesen (1)• Data X, statistisch model X ~ f (x | 𝜃 ), 𝜃 ∈ 𝚹, 𝜃 onbekend

• Vaak is X = (X1, …, Xn) met Xi i.i.d., …

• Stel 𝚹 = 𝚹0 ∪ 𝚹1, waarbij 𝚹0 ∩ 𝚹1 = ∅

• Doel: een besluit nemen, of beslissing maken, omtrent de onbekende waarde van 𝜃 – ligt 𝜃 in het ene of het andere gedeelte van de parameter ruimte?

• Besluit “𝜃 ∈ 𝚹0” óf “𝜃 ∈ 𝚹1”

Statistische hypothesen (2)• “𝜃 ∈ 𝚹0” heet de nul hypothese, H0, en “𝜃 ∈ 𝚹1” heet de

alternatieve hypothese, H1

• Als we kiezen voor H1 terwijl H0 waar is, noemen we dat een fout van de eerste soort

• Als we kiezen voor H0 terwijl H1 waar is, noemen we dat een fout van de tweede soort

• Asymmetrie: fouten van de eerste soort zijn heel erg! Fouten van de tweede soort zijn ook erg, maar niet zo erg – als we zo’n fout maken, helaas pindakaas, misschien hadden we meer data moeten verzamelen of een betere proef doen …

Statistische toets• Een statistische toets is een beslissingsregel, dus

een afbeelding d : X → {0, 1}, waar X = alle mogelijke data punten x

• d(x) = 0 betekent “kies voor H0”, en d(x) = 1 “kies voor H1”

• d is gekarakteriseerd door bijbehorende kritiek gebied (verwerpingsgebied) C = {x : d(x) = 1}, acceptatie gebied A = {x : d(x) = 0}

Gerandomiseerde toetsen• Laat ook toe, dat na waarnemen van de data,

besluit wordt genomen door aanvullende loting: dat heet een gerandomiseerde toets

• Beslissingsregel van een gerandomiseerde toets is een functie d : X → [0, 1] met als interpretatie: als we X = x waarnemen, dan kiezen we voor H1 met kans p = d(x)

• Wiskundig fraai (mooier theorie) maar in de praktijk vaak niet acceptabel!

Toetsingsgrootheid• Vaak construeren we toetsen via een toetsingsgrootheid

T = t (X): een statistiek, dwz functie van de data, met waardes in R

• Een eenzijdige toets gebaseerd op T is een toets met verwerpingsgebied (kritiek gebied) van de vorm {x: t (x) > k } … of ≥, of <, of ≤

• Drempelwaarde k heet dan ook de kritieke waarde

• Ook kunnen we tweezijdige toetsen, en gerandomiseerde toetsen, op een toetsingsgrootheid baseren

Enkelvoudige en samengestelde hypothesen

• Een hypothese (H0 of H1) heet enkelvoudig als het de kansverdeling van de data eenduidig vastlegt, m.a.w. 𝚹0 of 𝚹1 bestaat uit één enkele punt

• Anders heet de hypothese samengesteld

Onderscheidingsvermogen• Stel we hebben een statistische toets D = d(X),

dus een statistiek met waardes in [0, 1] (gerandomiseerde toets), of in {0, 1} (niet gerandomiseerde toets)

• Functie 𝜋(𝜃) = P(D = 1 | 𝜃 ) = E(D | 𝜃 ) van 𝚹 naar [0, 1] heet het onderscheidingsvermogen van de toets

• 𝜋(𝜃) is de kans, als we beslissingsregel d gebruiken, dat we de nul hypothese zullen verwerpen

• Dat is een goede kans voor 𝜃 ∈ 𝚹1 maar een slechte kans voor 𝜃 ∈ 𝚹0

• Door vergroten van het verwerpingsgebied (verhogen van d) neemt 𝜋 toe – een slechte zaak als 𝜃 ∈ 𝚹0, een goede zaak als 𝜃 ∈ 𝚹1

Significantie nivea• sup {𝜋(𝜃) : 𝜃 ∈ 𝚹0} is het significantie niveau van de toets

• Neyman-Pearson paradigma: we kiezen een acceptabele risico (kans van de eerste soort) 𝛼, bijvoorbeeld 𝛼 = 0.05, en beperken ons tot toetsen met significantie niveau ≤ 𝛼

• Binnen de klasse van toetsen met acceptabele maximale risico op een “fout van de eerste soort” 𝛼, zoeken we een toets met zo groot mogelijk onderscheidingsvermogen 𝜋(𝜃) voor 𝜃 ∈ 𝚹1, dus met zo klein mogelijk “fout van de tweede soort” 1 – 𝜋(𝜃)

Likelihood ratio toets bij enkelvoudige nul en alternatief• Stel 𝚹0 en 𝚹1 bestaan allebei uit één enkele

parameter waarde

• Schrijf f0 en f1 voor de bijbehorende dichtheden van de data X

• Een toets gebaseerd op verwerpen voor kleine waardes van de likelihood ratio 𝜆 = f0 / f1 heet een likelihood ratio toets

Likelihood ratio toets• Een likelihood-ratio toets is dus een toets met

beslissingsfunctie d van de vorm:

• Accepteer H0 als 𝜆(x) > c

• Verwerp H0 als 𝜆(x) < c

• Verwerp H0 met kans p als 𝜆(x) = c

• De toets wordt dus bepaald door de waardes van c ∈ [0, ∞] en van p ∈ [0, 1]

• Bij c = 0 beperken we ons tot p = 1, bij c = ∞ tot p = 0

Neyman-Pearson lemma• Zij d de beslissingsregel van een likelihood ratio toets

• Zij 𝛼 = E(d(X) | H0), het significantie niveau van deze toets (kans van fout van de eerste soort)

• Zij 𝛽 = 1 – E(d(X) | H1), het complement van het onderscheidingsvermogen (kans van fout van de tweede soort)

• Elk andere toets met significantie niveau ≤ 𝛼 heeft een minstens zo grote kans van fout van de tweede soort (Neyman-Pearson)

• Aangezien we likelihood ratio toetsen kunnen bedenken met elke gewenste significantie niveau 𝛼 ∈ [0, 1] (hier loont het, wiskundig, om gerandomiseerde toetsen toe te laten!), kunnen we dus rustig alle andere toetsen gewoon vergeten – elke toets die je kan bedenken kan verbeterd worden door over te stappen op een (ev. gerandomiseerde) LR toets

Sufficiency en het Neyman-Pearson lemma

• H0 en H1 allebei enkelvoudig, 𝚹0 en 𝚹1 bestaan elk uit maar één punt, 𝜃0 resp. 𝜃1

• 𝜆(x) = f0(x | 𝜃0) / f1(x | 𝜃1) ; 𝚹 = {𝜃0, 𝜃1}

• 𝛬 = 𝜆(X) is voldoende voor 𝜃 ∈ 𝚹, want de conditionele verdeling van X, gegeven 𝛬 = c, hangt niet meer van 𝜃 af

• Neyman-Pearson lemma laat zien dat een statistische toets wat niet gebaseerd is op deze voldoende grootheid, verbeterd kan worden door over te stappen op een toets gebaseerd op 𝛬

cf: Rao-Blackwell stelling: sterkere versie

• Stel T is een voldoende grootheid voor 𝜃 ∈ 𝚹 en 𝜃 een schatter voor 𝜃 met eindige verwachtingswaarde

• Stel ℓ : R → R+, ℓ(0) = 0, is convex; ℓ heet een verlies functie

• Risico van 𝜃 is r (𝜃) = E(ℓ(𝜃 – 𝜃) | 𝜃)

• Definieer 𝜃 = E(𝜃 | T); dit is een schatter (functie van de data) omdat de conditionele verdeling van X gegeven T = t niet van de parameter 𝜃 afhangt; en het is een functie van T

• Dan is de risico (verwachte verlies) van 𝜃 beter dan dat van 𝜃 (meer precies: minstens zo goed, ongeacht 𝜃)

ˆ

ˆˆˆ̂

ˆ̂ˆ

Bewijs: Jensen

ˆ

Bewijs Neyman-Pearson• Ik bekijk hier alleen het geval c ∈ (0, ∞)

• Stel d is een LR-toets met drempelwaarde c en significantie niveau 𝛼

• Stel d* is een andere toets met significantie niveau hoogstens 𝛼

• Dus d = 0 en d – d* ≤ 0 op {𝜆 > c}; d = 1 en d – d* ≥ 0 op {𝜆 < c}

• I(𝜆 > c)(d – d*) f0 ≤ c I(𝜆 > c)(d – d*) f1

• I(𝜆 = c)(d – d*) f0 = c I(𝜆 = c)(d – d*) f1

• I(𝜆 < c)(d – d*) f0 ≤ c I(𝜆 < c)(d – d*) f1

• Integreer over x en sommeer de drie regels, geeft

• 𝛼 – 𝛼* ≤ c ((1 – 𝛽) – ( 1 – 𝛽*)) oftewel 𝛽*– 𝛽 ≥ (𝛼 – 𝛼*)/c ≥ 0

Uniform meest onderscheidende toetsen

• Meestal zijn H0 en H1 niet enkelvoudig

• Maar soms is NP toch nuttig

• Voorbeeld: X ~ Bin(n, 𝜃); H0: 𝜃 ≤ 𝜃0 vs H1: 𝜃 > 𝜃0

• Voor willekeurig 𝜃, 𝜃′ met 𝜃 < 𝜃′ is de log LR voor enkelvoudige hypothesen H0: 𝜃 vs H1: 𝜃′ gelijk aan X (log (𝜃/(1 – 𝜃) – log ( 𝜃′/(1 – 𝜃′)) en dat is een monotoon dalende functie van X

• De bijbehorende LR toetsen zijn allemaal van de vorm: verwerp als X > xc, accepteer als X < xc, randomiseer als X = xc

• Stel dus P(Bin(n, 𝜃0) ≥ xc) = 𝛼

• Bekijk (niet gerandomiseerde) toets d “verwerp H0 desda X ≥ xc”

Uniform meest onderscheidende toetsen (vervolg)

• Bekijk (niet gerandomiseerde) toets d “verwerp H0 desda X ≥ xc”

• Voor 𝜃 ≤ 𝜃0 is P(Bin(n, 𝜃) ≥ xc) ≤ 𝛼 dus deze toets heeft niveau 𝛼

• Voor elke andere toets met significantie niveau ≤ 𝛼 geldt wegens NP (toets 𝜃 = 𝜃0 vs 𝜃 = 𝜃1 > 𝜃0) dat zijn onderscheidingsvermogen tegen 𝜃 = 𝜃1 > 𝜃0 kleiner is

• dwz, voor elke toets d*, met significantie niveau hoogstens 𝛼, geldt 𝜋(𝜃) ≥ 𝜋*(𝜃) voor alle 𝜃 ∈ 𝚹1

• Toets d is uniform meest onderscheidend niveau 𝛼

En verder?• In de meeste situaties bestaat helaas geen uniform

meest onderscheidende toets

• Bijvoorbeeld: X ~ Bin(n, 𝜃); H0: 𝜃 = 𝜃0 vs H1: 𝜃 ≠ 𝜃0

• Soms als we ons eerst beperken door andere prettige nevenvoorwaarden in te stellen, bijv “zuiverheid”, “invariantie” … dan is er wel een beste toets binnen de zo ontstane kleinere klasse

• NP geeft verder inspiratie bij het ontwerpen van toetsen, bijvoorbeeld “gegeneraliseerde likelihood ratio toetsen”

p-waardes• Stel we gaan een toets uitvoeren gebaseerd op toetsingsgrootheid T; stel dat onze toets

de vorm heeft “verwerp H0 tgv H1 bij grote waardes van T ”

• Nadat we het experiment gedaan hebben, nemen we waar T = t

• Definieer p(t) = sup {P( T ≥ t | 𝜃) : 𝜃 ∈ 𝚹0}

• De waargenomen waarde p(t ) van p(T ) heet de p-waarde (“p-value”)

• Idee: statisticus rapporteert p-waarde, laat keuze van 𝛼 over aan consument

• Als consument een significantie niveau 𝛼 hanteert ≥ p-waarde, dan verwerpt hij H0

• Als consument een significantie niveau 𝛼 hanteert < p-waarde, dan accepteert hij H0

• p-waardes zijn slecht begrepen en leiden vaak tot rampen (Lucia de B; probiotica proef)

• p(t) is niet de kans dat H0 niet waar is (Higgs’ boson)

Alternatief bewijs NP lemma: methode Lagrange multiplicator (1)• Stel d is een LR-toets met drempelwaarde c > 0 en

significantie niveau 𝛼

• Stel d* is een andere toets met significantie niveau hoogstens 𝛼

• We kunnen d* aanpassen (ev. mbv. randomisatie) zdd. zijn significantie niveau stijgt tot precies 𝛼, zonder verlies van onderscheidingsvermogen

• Zonder verlies van algemeenheid veronderstel ik dus dat beide toetsen dezelfde kans 𝛼 hebben op een fout van de eerste soort

Alternatief bewijs NP lemma: methode Lagrange multiplicator (2)• Zij cLR de drempel waarde van de LR toets in kwestie, die ik nu dLR zal noemen

• Noem zijn significantie niveau 𝛼LR

• Definieer kLR = 1 / cLR

• Voor een willekeurige (ev. gerandomiseerde) toets d definieer

• 𝛼(d ) = kans op type 1 fout = E(d(X) | H0)

• 𝛽(d ) = kans op type 2 fout = 1 - E(d(X) | H1)

• 𝜋(d ) = onderscheidingsvermogen = 1 – 𝛽(d )

• We willen laten zien dat dLR de oplossing is van het “constrained optimisation problem”: maximaliseer 𝜋(d ) over toetsen d onder de bijvoorwaarde: 𝛼(d ) = 𝛼LR

• Bekijk de onbeperkte optimalisatie probleem: maximaliseer 𝜋(d ) – kLR 𝛼(d ) over alle gerandomiseerde toetsen d (dus: zonder bijvoorwaarde)

Alternatief bewijs NP lemma: methode Lagrange multiplicator (3)• Maximise 𝜋(d ) – kLR 𝛼(d ) = E(d(X) | H1) – kLR E(d(X) | H0)

= ∫ d(x) (f1(x) – f0(x) / cLR) dx, by choice of the decision function d

• Soln. to unconstrained optimisation problem is: choose d(x)

• as large as possible ( = 1) where (f1(x) – f0(x) / cLR) is positive,

• as small as possible ( = 0) where (f1(x) – f0(x) / cLR) is negative

• arbitrarily, where (f1(x) – f0(x) / cLR) = 0

• Thus dLR solves the unconstrained optimisation problem

• Since, if we constrain d to satisfy 𝛼(d ) = 𝛼LR, the term kLR 𝛼(d ) becomes constant, it follows that dLR also solves the constrained optimisation problem

Education

Neyman Pearson lemma - introduction