Föreläsning 11 (ej på tentan): Tillämpningar och …¤ttmaskinerna och en uppsjö av olika...

Preview:

Citation preview

Chalmers University of Technology

Föreläsning 11 (ej på tentan):

Tillämpningar och vidareutvecklingar

Marina Axelson-Fisk

23 maj, 2016

Chalmers University of Technology

Tillämpningsområden

• Regression (Kap 11-12)

• Variansanalys och försöksplanering (Kap 13-14)

• Enkätanalyser

• Kategoriska data (Kap 15)

• Icke-parametriska metoder

Chalmers University of Technology

REGRESSION

Chalmers University of Technology

Korrelation

• Korrelation är ett mått på det linjära

beroendet mellan två stokastiska variabler Xoch Y

� = ���(�, )�� � �� ()

där −1 ≤ � ≤ 1 och � = ±1 betyder ett linjärt beroende på formen

= �� + ���

Chalmers University of Technology

Linjär regression

• I linjär regression försöker man modellera den här typen av beroende. För två stickprov ��, … , �� och �, … , �

� = �� + ���� + ��där �� och �� är konstanter och

�� ∼ �(0, ��) är den slumpmässiga avvikelsen/felet.

Chalmers University of Technology

Exempel 1: linjär regression

• Florida Game and Fish Water comission vill uppskatta vikten hos alligatorer mha visuell uppskattning av dess längd. Data:

Alligator 1 2 3 4 5 6 7 8

X = längd (m) 2.4 1.9 1.5 2.2 2.4 1.6 2.2 1.8

Y = vikt (kg) 58 23 13 36 50 15 41 16

Chalmers University of Technology

Ex. 1 (forts)

= −62.92 + 47.21 ⋅ �

Chalmers University of Technology

Den skattade linjen

�&� = '( − �&�)̅ = −62.92�&� = ∑ (-./-̅)(0./0()1.23

∑ (-./-̅)1.234 = 567

566 = 47.21Test-statistika

8 = �&� − 09/ ;--

∼ <�/�

Chalmers University of Technology

Test av relationens styrka

=�: �� = 0 (lutningen)

=�: �� > 0Test-statistikan 8 = 8.34 jämförs mot <�/�,�/B

4= <C,�.DE = 3.143

och eftersom 8 > <C,�.DE förkastar vi =�.

Det finns ett signifikant, positivt samband mellan vikt och längd.

Chalmers University of Technology

Regression – användningsområden

• Modellera samband mellan variabler

• Mäta styrkan i relationen: hypotestest, styrkeberäkning

• Prediktion och prognoser: för ett nytt värde � vad är den troligaste observationen på ?

Chalmers University of Technology

Ex. 1 (forts)

För en alligator med längden 2.3 m, vad är den troligaste vikten?

= −62.92 + 47.21 ⋅ �= −62.92 + 47.27 ⋅ 2.3= 45.66kg

Observera dock att för små längder, fungerar inte den här relationen…

Chalmers University of Technology

Ex. 1 (forts)

Chalmers University of Technology

FÖRSÖKSPLANERING

Chalmers University of Technology

Försöksplanering

• För få ut så mycket information som möjligt ur ett experiment är det viktigt att planera hela processen i förväg. Hur ska experimentet genomföras och analyseras.

• Typisk vill man mäta eventuell effekt av någon slags behandling på någon typ av objekt (tex människor, djur, växter, maskiner, processer)

Chalmers University of Technology

Försöksplanering

• Vad vill vi undersöka? (hypotes)

• Hur ser populationen ut som vi testar på?

• Hur drar vi vårt stickprov? (sampling)

• Behöver data rensas?

• Hur ska vi analysera data?

• Hur ska vi presentera resultaten?

Chalmers University of Technology

Vanliga samplingmetoder

Metod Beskrivning

Enkel sampling Hela populationen är tillgänglig och objekt dras med lika sannolikhet.

Stratifierad sampling När sub-populationer påverkar mätdata på olika sätt.

Klustersampling När enkel sampling är svår pga otillgängliga eller utspridda populationer.

Systematisk sampling När populationen är inhomogen. Istället ordnas populationen enligt något kriterium och var n:te objekt dras.

Multi-stegssampling Sampling i rekursiva steg.

Chalmers University of Technology

Datarensning

• Titta på data för att – identifiera olika typer av fel.

– identifiera felaktiga outliers.

– kolla att antagandena i din analysmetod är uppfyllda.

– upptäcka andra fel som duplicerade värden, omöjliga värden, beroenden, etc.

• Titta INTE på data för att välja hypotes!

Chalmers University of Technology

Titta på data…

• … för att identifiera fel.

Kön

1 2 3

Frekvens:1: 172: 123: 1

Chalmers University of Technology

Titta på data…

• … för att identifiera outliers.

0 25 50 75 100 150 200

ÅlderÅlder Freq0-25 6 Medelv: 6425-50 18 Median: 5550-75 2275-100 17…200-225 1

Chalmers University of Technology

Olika experimentupplägg

• Randomiserade försök

• Behandling - kontroll

• Faktorförsök

• Sekventiella försök

Chalmers University of Technology

Randomiserade försök

• Slumpmässigt dragna stickprov eller slumpmässig tilldelning av behandling av objekten.

• För att undvika effekter som beror på andra faktorer än de man testar.

• Resultat kan endast generaliseras till hela populationen om stickprovet är slumpmässigt och representativt

Chalmers University of Technology

Behandling – kontroll

• En grupp får behandling, en får ingen, placebo eller standard-behandling

• Båda grupperna ska vara lika representativa från samma population– randomisering till behandlingsgrupper av ett

stickprov

– tvillingstudier – randomisering inom par

Chalmers University of Technology

Faktorförsök

• Mäter effekter och samspel mellan ett antal faktorer som tros ha någon effekt på en responsvariabel.

• Faktorerna ställs in på olika nivåer.

• Effektivare än att mäta varje faktor för sig, särskilt om det finns samspel också.

• Ett komplett faktorförsök gör mätningar på alla kombinationer av faktorer och nivåer.

• Vanligast: 2 nivåer per faktor, tex låg (-), hög (+)

Chalmers University of Technology

Sekventiella försök

• Istället för ett enda stort experiment, med alla faktorer och nivåer på en gång, kan det vara bättre att bryta upp i flera steg –iterativt

• Beroenden mellan ett försök till nästa

• Stegvis genom processen

Chalmers University of Technology

Ex. 2: faktorförsök

Försök: klädtvättning

Motivering:

• Det finns en mängd olika inställningar på tvättmaskinerna och en uppsjö av olika tvättmedel och fläckborttagninsprodukter.

• Dagens tvättmedel påstår dessutom sig ha lika stor effekt i lägre temperaturer.

• Vilka faktorer har effekt? Vilka inställningar på dessa faktorer är effektivast?

Chalmers University of Technology

Ex. 2: faktorer och nivåer

Faktor Låg nivå (-) Hög nivå (+)

��:Tvättmedel Billigast (Eldorado) Dyrast (Via Sparkling)

��:Tvättmedelsmängd 0.25 dl 1 dl

�I:Vattentemperatur 40J C 95J C

• 4 olika behandlingar: nyponsoppa, blåbärssoppa, banan, ketchup (dvs 4 separata försök).

• Responsfaktor Y: skala 1-10, från smutsig till helt ren.

Chalmers University of Technology

K-faktorförsök försöksplan

Faktor ��

Faktor ��

Faktor �I–

––

+

+

+

Försök LM LN LK1 – – –

2 + – –

3 – + –

4 + + –

5 – – +

6 + – +

7 – + +

8 + + +

Chalmers University of Technology

Linjär modell K-faktorförsök

• Responsvariabel: ∼ �(O, ��)• Faktorer: ��, ��, �I - 2 nivåer på varje

• Modell = �� + ���� + ���� + �I�I + ������� ++��I���I + ��I���� + ���I�����I + �

• Huvudeffekter: ��, ��, �I• Samspelseffekter: ���P och �����I• Mätfel: � ∼ �(0, ��)

Chalmers University of Technology

Analys av faktorförsök

• Regression

• ANOVA – ANalysis Of VAriance(variansanalys)

Chalmers University of Technology

ANOVA (variansanalys)

• Används för att testa skillnader i väntevärdeE Y = O mellan olika grupper (tex olika faktornivåer).

• Hypotestest: ingen skillnad mellan grupper, tex=�: O� = O� = ⋯ = OT=�: någonskillnad

för I olika grupper.

• Testet påvisar skillnad mellan grupperna men ger inte vilken grupp som skiljer sig.

Chalmers University of Technology

En-vägs ANOVA

Exempel:

• Vi har I olika populationer, och vill testa om de skiljer sig åt i något visst avseende. Ett stickprov av storlek n dras ur varje population (totalt � = ] ⋅ ^ objekt).

• Vi vill testa effekten av I olika behandlingar på � objekt, som slumpmässigt delas in i Igrupper, en för varje behandling.

Chalmers University of Technology

En-vägs ANOVABehandling 1 Behandling 2

Behandling 3

�(�, 9��

�(�, 9��

�(I, 9I�Skattning av stickprovets väntevärde och varians.

Chalmers University of Technology

En-vägs ANOVA

• En faktor på flera olika nivåer/behandlingar

• Linjär modell:�P = O� + ��P

där i är behandling, och j är försöksobjekt.

��P ∼ �(0, ��) och oberoende.

O� är väntevärde för behandling i.

Chalmers University of Technology

Sum-of-squares

• ANOVA delar upp den totala variationen i två delar:

;;_`abc = ;;_d + ;;eff �P − ( �

Pg�

T

�g�= ]f (� − ( � +ff �P − (� �

Pg�

T

�g�

T

�g�

för I grupper och n objekt i varje grupp.

Chalmers University of Technology

En-vägs ANOVA

• Kom ihåg stickprovsvariansen för ett stickprov ��, … , ��

9� = 1] − 1f �� − �( �

�g�

Sum-of-squares

Chalmers University of Technology

En-vägs ANOVA

• Populationsvariansen kan skattas på två sätt:– Mean square treatment (h;_d) –

variansskattning mellan behandlingar

– Mean square error (h;e) – variansskattning inom varje behandling

• Om =� är sann, ingen skillnad mellan grupper, borde h;_d ≈ h;e.

• Om =� falsk borde h;_d > h;e

Chalmers University of Technology

Hypotestest

• Test-statistika

j� =;;_d/(^ − 1);;e/(� − 1) =

h;_dh;e ∼ jT/�,k/�

där =� förkastas om j� ≫ 1.

Chalmers University of Technology

Två-vägs ANOVA

• Två faktorer på olika nivåer'�Pm = O�P + ��Pm

där i är nivåer för faktor 1, j nivåer för faktor 2, och k är index för försöksobjekt. ��Pm ∼ � 0, �� och oberoende.

Chalmers University of Technology

Två-vägs ANOVA

• Hypotestest: – Ingen effekt på faktor 1

=�: O�⋅ = O�⋅ = ⋯ = OT⋅– Ingen effekt på faktor 2

=�: O⋅� = O⋅� = ⋯ = O⋅n– Inget samspel mellan faktorer

=�: O�� = O�� = ⋯ = OTn

Chalmers University of Technology

Sum-of-squares

• Sum-of-squares;;_ = ;;� + ;;� + ;;�� + ;;e

där– ;;_ för hela stickprovet

– ;;� och ;;� för vardera faktor

– ;;�� för varje samspelskombination

– ;;e inom varje faktorkombination

Chalmers University of Technology

ANOVA-tabellVariation Sum-of-

squaresdf Mean Square

(MS)F-value p-value

(F-distr)

Faktor 1 ;;� (I-1) h;� =;;�pq j = h;�

h;e…

Faktor 2 ;;� (J-1) h;� =;;�pq j = h;�

h;e…

Samspel 12

;;�� (I-1)(J-1)

h;�� =;;��pq j = h;��

h;e…

Within/Error

;;e IJ(n-1) h;e = ;;epq

Totalt ;;_ N-1

Förkasta =� om p-värdet > r

Chalmers University of Technology

Ex. 2: uppmätta responser ( )

��= märke

��= mängd

�I= temp

––

–+

+

+

3.41 2.59

4.785.59

4.915.72

7.097.91

Chalmers University of Technology

Ex. 2 (forts)Variation Sum-of-

squaresdf Mean Square

(MS)F-value(h;�/h;e)

p-value(F-distr)

Faktor 1 2.64 1 2.64 2.96 0.1133

Faktor 2 21.39 1 21.39 23.98 0.0005

Faktor 3 19.14 1 19.14 21.46 0.0007

Within/Error

9.81 11 0.89

Totalt 52.98 15

• Förkasta =� för faktor 2 (tvättmedelsmängd) och faktor 3 (temp).

Chalmers University of Technology

Enkätundersökningar

• Kartläggning av åsikter, inställningar, kunskaper

• Testa quality of life, före och efter en behandling

• Används ofta inom psykologi, socialvetenskap, och ekonomisk forskning.

Chalmers University of Technology

Datatyper

• Nominalskala – grupperingar utan inbördes ordning, tex kön, yrke, djurart, blodtyp

• Ordinalskala – finns en rangordning, men kan inte kvantifieras för övrigt, tex bra, bättre, bäst

• Intervallskala – numeriskt värde, skillnader kan kvantifieras

• Kvotskala – numeriskt värde relativt ett entydigt nollvärde

Kategoriskdata

Numeriskdata

Chalmers University of Technology

Viktigt att tänka på

• Vad vill du mäta/testa och vad är din hypotes?

• Upplägg och utformning, bra frågor som inte missförstås och som mäter rätt saker

• Representativa urval

• Hantering av bortfall (missing data)

• Pilotstudier kan indikera brister i enkäter

Chalmers University of Technology

Ordinalskalor

• Tex ”i hur stor utsträckning håller du med om följande påstående” X:– 1 = håller inte alls med

– 2 = håller delvis inte med

– 3 = neutral

– 4 = håller med delvis

– 5 = håller helt med

Chalmers University of Technology

Ordinalskalor• Värden kan inte behandlas aritmetiskt:

1 2 3 4 5

1 2 3 4 5

Försiktig

1 2 3 4 5

Djärvare

1 2 3 4 5

Positiv

Chalmers University of Technology

Ordinalskalor

• Medelvärde blir meningslöst

• Mätningarna är inte ekvidistanta

– dvs 5-4 är inte samma som 3-2

– skillnader mellan individer

– skillnader mellan frågor för samma individ

• Använd metoder baserade på rangordning

Chalmers University of Technology

Data-analys

• Deskriptiv statistik

• Kvantitativ analys– Parametriska metoder – för numeriska värden

– Icke-parametriska metoder – för kategoriska värden

Chalmers University of Technology

Deskriptiv statistik

• Plottar: cirkeldiagram, histogram, regressionslinjer

• Medelvärde, median

• Standardavvikelse, kvartiler

Chalmers University of Technology

Kvantitativ analys

• Korrelation mellan grupper, mellan frågor– Numerisk data: Pearson (den ”vanliga”)

– Kategorisk data: Spearman, Kendall

• Hypotestest av skillnader mellan grupper– Numerisk data: t-test, ANOVA

– Kategorisk data: Wilcoxon, Kruskal-Wallis, binomialtest av proportioner, kontingenstabeller

Chalmers University of Technology

ICKE-PARAMETRISKA METODER

Chalmers University of Technology

Parametriskt – ickeparametriskt

• En parametrisk metod gör antaganden om underliggande fördelning (parametrar) i.

• Icke-parametriska metoder gör inga sådana antaganden.

Chalmers University of Technology

Antaganden i parametriska test

• Slumpmässiga och oberoende stickprov.

• Underliggande fördelning är normal.

• Ungefär samma varians mellan stickprov.

Chalmers University of Technology

Parametriskt-ickeparametrisktParametric Nonparametric

Underliggande fördelning Normal Godtycklig

Variansantagande Homogen Godtycklig

Typisk datatyp Kvantitativ, kontinuerlig

Ordinal eller nominal

Centralt mått Medelvärde Median

Data-antaganden Oberoende Inga

Fördelar Starkare test Enklare, mindre känsliga

Chalmers University of Technology

Anledningar att använda parametriska metoder

• Starkare test. Större möjlighet att upptäcka effekter.

• Kan fungera för inhomogena varianser också.

• Kan fungera på icke-normal data.

Chalmers University of Technology

Anledningar att använda icke-parametriska metoder

• Din data representeras bättre av medianen än medelvärdet.

• Observationerna är beroende.

• Stickprovet är litet.

• Datan är ordinal eller categorisk.

• Det finns outliers som inte kan tas bort.

Chalmers University of Technology

Icke-parametriska metoder

• Wilcoxon rank test: testar om två grupper kommer från samma population baserat på ordinalskalor

• Kruskal-Wallis: en-vägs variansanalys av ordinaldata

• Teckentest: test av matchade par (tex före-efter)

Chalmers University of Technology

t-test kontra tecken-test

t-test:

• Test av väntevärdet:=�: O = O�, =�: O ≠ O�

• Fördelning: normal.

• Teststatistika: funktion av stickprovet.

• Jämför teststatistikan med <�/�-fördelningen.

Teckentest:

• Test av medianen t.=�: t = t�, =�: t ≠ t�

• Fördelning: okänd.

• Teststatistika: baseras på uv = #{��: �� −t� > 0}

• Jämför teststatistikan med z{]�t{�|(], }) där } = 0.5.

För ett stickprov ��, … , ��

Chalmers University of Technology

Exempel: teckentest

~ L~ L~ − K. � Sign

1 5.0 1.3 +

2 3.9 0.2 +

3 4.8 1.1 +

4 6.1 2.4 +

5 2.6 -1.1 –

• Test av medianen: =�: t = 3.7, =�: t ≠ 3.7

• uv = 4, u/ = 1• Under =� är antal + binomialfördelade.

Chalmers University of Technology

2-stickprov t-test kontra Mann-Whitney

2-stickprov t-test:

• Test av två väntevärden:=�: O� = O�, =�: O� ≠ O�

• Fördelning: normal, samma varians.

• Teststatistika: funktion av stickproven.

• Jämför teststatistikan med <�v�/�-fördelningen.

Mann-Whitney test:

• Test av två väntevärden:=�: O� = O�, =�: O� ≠ O�

• Fördelning: okänd

• Teststatistika: baseras på rangsummor �� och ��när alla ] +t obs rangordnas tillsammans.

• Jämför teststatistikan med tabell över kritiska värden.

För två oberoende stickprov ��, … , �� och �, … , �

Chalmers University of Technology

Exempel: Mann-Whitney

Ranger

Gr 1 Gr 2

4 1

7 3

5 6

8 2

Rangsumma 24 12

Rang-medelvärde 6 3

Mätvärden

Gr 1 Gr 2

6.4 2.5

9.1 3.9

7.2 8.1

9.7 3.3

Recommended