59
Forklaring af begreb Andet lignende eller associeret begreb Eksempel Kritiske værdier / udfaldsrum Vær opmærksom på Udregnes som / formel 1 Forklaring af kvantitative og statistiske begreber til samfundsvidenskabelig anvendelse af Jacob Brauner

Forklaring af kvantitative og statistiske begreber til ... · Forklaring af begreb Andet lignende eller associeret begreb Eksempel Kritiske værdier / udfaldsrum Vær opmærksom på

  • Upload
    lyliem

  • View
    234

  • Download
    4

Embed Size (px)

Citation preview

Page 1: Forklaring af kvantitative og statistiske begreber til ... · Forklaring af begreb Andet lignende eller associeret begreb Eksempel Kritiske værdier / udfaldsrum Vær opmærksom på

Forklaring af begreb Andet lignende eller associeret begreb

Eksempel Kritiske værdier / udfaldsrum

Vær opmærksom på Udregnes som / formel

1

Forklaring af kvantitative og statistiske begreber til

samfundsvidenskabelig anvendelse

af Jacob Brauner

Page 2: Forklaring af kvantitative og statistiske begreber til ... · Forklaring af begreb Andet lignende eller associeret begreb Eksempel Kritiske værdier / udfaldsrum Vær opmærksom på

Forklaring af begreb Andet lignende eller associeret begreb

Eksempel Kritiske værdier / udfaldsrum

Vær opmærksom på Udregnes som / formel

2

Indledning Formålet med dette opslagsværk har været at lave en omfattende alfabetisk oversigt og vejledning til statistiske værktøjer og kvantitative begreber, som har relevans for den sociologiske bacheloruddannelse. Som studerende kan anvendelsen af statistik og kvantitativ metode have sporadisk udbredelse efter færdiggørelsen af de obligatoriske kvantitative/statistiske fag. Det er opfattelse, at det for mange studerende kan være svært at opretholde samtlige relevante begrebsdefinitioner i hukommelsen. Da man jævnligt støder på statistiske og kvantitative begreber til forelæsninger og i samfundsvidenskabelig litteratur, kan det være hensigtsmæssigt at have en samlet oversigt over alle relevante begreber i baghånden. Ved at der så vidt muligt er samlet alle relevante begreber, beskrives der også en række begreber udenfor pensumlitteraturen, som man kan støde på. Pensumlitteraturen til den sociologiske bacheloruddannelse på Københavns Universitet indeholder udmærkede forklaringer af de fleste statistiske begreber med samfundsvidenskabelig relevans. Dog er det undertegnedes opfattelse, at disse bøger samtidig indeholder visse begrænsninger, særligt i forhold til den praktiske anvendelse1. I listen på side 3 fremgår de områder, der er forsøgt udfyldt, som ikke konsekvent fremgår i pensumlitteraturen. Forklaringer af begreberne er holdt korte af hensyn til nem og hurtig tilgang. Ønskes der mere dybdegående forklaringer, anbefales det at gøre brug af de foreliggende pensumtekster eller anden litteratur om emnet. På internettet findes der i stort omfang information om statistik, hvilket der med fordel kan gøres brug af. Blandt andet anbefales følgende: Wikipedia: http://da.wikipedia.org/wiki/ Rice Virtual Lab: http://onlinestatbook.com/rvls.html Jeg har med vilje undladt at gøre brug af hyperlinks i forklaringsteksten, da information på internettet som bekendt ofte skifter adresse.

Historik

I dette opslagsværk anvendes farvekoder til forskellige relevante aspekter af begreberne: Forklaring af begreb Andet lignende og/eller associeret begreb Eksempel på anvendelse Kritiske værdier/udfaldsrum Vær opmærksom på Udregnes som / formel

1 ”Statistical Methods for the Social Sciences”, Agresti & Finlay, ”Indblik i statistik”, Malchow-Møller & Würtz, ”Et sociologisk værktøj”, Hansen & Andersen m.m.

Page 3: Forklaring af kvantitative og statistiske begreber til ... · Forklaring af begreb Andet lignende eller associeret begreb Eksempel Kritiske værdier / udfaldsrum Vær opmærksom på

Forklaring af begreb Andet lignende eller associeret begreb

Eksempel Kritiske værdier / udfaldsrum

Vær opmærksom på Udregnes som / formel

3

Indhold

• En samlet kort og præcis begrebsforklaring med grafiske forklaringer i relevant omfang.

• Konsekvent oversættelse af begreberne til engelsk. • Konsekvent beskrivelse af græske/matematiske symboler knyttet til de pågældende

begreber.

• Konsekvent beskrivelse af begrebernes udfaldsrum.

• Så vidt muligt alle kendte synonymer for beskrevne begreber. Nogle begreber har flere navne, eller har tilknyttet flere forskellige symboler.

• Tilknytning af beregningsformler.

• Mulighed for hurtigt opslag pga. elektronisk form, da indholdsfortegnelserne i

pensumteksterne ikke er konsekvente (markér eksempelvis tegn-kolonnen ved søgning efter tegn).

• Krydshenvisninger i sammenhæng med begreber, der er relaterede og/eller ligner

hinanden, da små forskelle kan have afgørende betydning for anvendelsen (se farvekoder).

• Forklaring af begreber med sociologisk relevans, som ligger uden for pensum.

Tak til

For assistance med statistiske og kvantitative begreber: Lars Pico Geerdsen Kristian Bernt Karlson For assistance med formidlingssmæssig gennemlæsning: Søren Rishøj Andersen Ask Greve Jørgensen

Page 4: Forklaring af kvantitative og statistiske begreber til ... · Forklaring af begreb Andet lignende eller associeret begreb Eksempel Kritiske værdier / udfaldsrum Vær opmærksom på

Forklaring af begreb Andet lignende eller associeret begreb

Eksempel Kritiske værdier / udfaldsrum

Vær opmærksom på Udregnes som / formel

4

Begreb Engelsk Tegn/

skrives

som

Forklaring

Afhængig variabel

Dependent variable, effect variable, regressand, response variable, DV

Y Variabel eller variable som søges forklaret via. andre forklarende variable. Uafhængig variabel.

Analysesoftware Analytic software

Software, som muliggør forskellige former for analyse af indsamlede data. Analytisk software kan være specialiseret i forhold til nonparametrisk, parametrisk analyse, eller på anden måde specialiseret i forhold til statistisk anvendelse. Ofte indeholder analytisk software forskellige muligheder for moduludvidelse. Softwarepakker er ofte kombinationer af indsamlings-software og analysesoftware. SAS, Stata, SPSS, R, Excel, PSPP Indsamlingssoftware.

Akse Axis Grafisk linje som angiver en dimension ud fra en given enhed. I et kartesisk koordinatsystem betegner x, y og z-akserne, også kaldet 1., 2. og 3.-akserne, tre dimensioner.

Kan anvendes grafisk 2- eller 3-dimensionelt, eksempelvis til at beskrive udfaldet af en variabel.

Andelsfunktion Share function Sandsynligheden for et udtræk med visse egenskaber, som gælder for en andel af populationen Sandsynligheden for at tjene mellem 10.000 og 12.000 kr. om måneden. Kumuleret funktion. P =0;1

enpopulationielementerantal

enpopulationizegenskabenmedelementerantalzgzP

___

______)()( ==

Anova (Analysis Anova, ANOVA En test, som udtrykker hvorvidt middelværdi og varians

1.

2. 3.

Page 5: Forklaring af kvantitative og statistiske begreber til ... · Forklaring af begreb Andet lignende eller associeret begreb Eksempel Kritiske værdier / udfaldsrum Vær opmærksom på

Forklaring af begreb Andet lignende eller associeret begreb

Eksempel Kritiske værdier / udfaldsrum

Vær opmærksom på Udregnes som / formel

5

of Varianse) Fisher’s Anova, (2-vejs = Factorial)

fra forskellige populationer, dvs. eksempelvis to stikprøver eller to variable i samme stikprøve, kan være den samme. 1-vejs anova: varians på 50 samples af indkomst ifht. afstand til arbejde, 2-vejs anova: varians på 50 samples af hhv. mænds og kvinders indkomst i forhold til afstand til arbejde, hvor der der testes for forskel mellem mænd og kvinders varians. Der skelnes mellem 1-vejs og 2-vejs anova, hvor 2-vejs udtrykker variansforhold mellem to variable. De sammenlignede stikprøver antages at komme fra normalfordelte populationer, og at de har samme varians. Ω =0;∞ Se T-test og F-test afhængigt af om det er 1-vejs eller 2-vejs ANOVA.

Antalsparameter Count parameter

n Beskriver et antal. Ω =0;∞ (hele tal) Diskret variabel.

Alternativ hypotese

Alternative hypothesis

H1 Hypotese hvor der siges at være signifikant forskellighed, hvis det f.eks. er to udfald/varianser/sandsynligheder som testes mod hinanden. Nulhypotese. H1: p1 > p2

Approksimativt normalfordelt

Approximatively normal distributed

X~AN En variabel som tilnærmelsesvist er normalfordelt. Der er to situationer, hvor fordelinger forventes at have en approksimativ normalfordeling:

- Visse typer af virkelige populationer, eksempelvis indkomst, hvor der muligvis kan være flest med middelindkomst, personhøjde i forhold til gennemsnitshøjde eller afstand fra bullseye ved forsøg med dartpilekast.

- Matematiske fordelinger: stikprøvevarians. Eksempel på approksimativt normalfordelt stikprøvevarians: Den gennemsnitlige IQ er 100. I stikprøver udvalg fra en population, vil middelværdierne i disse stikprøve ligge normalfordelt omkring 100. Den centrale grænseværdisætning; en sand

Page 6: Forklaring af kvantitative og statistiske begreber til ... · Forklaring af begreb Andet lignende eller associeret begreb Eksempel Kritiske værdier / udfaldsrum Vær opmærksom på

Forklaring af begreb Andet lignende eller associeret begreb

Eksempel Kritiske værdier / udfaldsrum

Vær opmærksom på Udregnes som / formel

6

normalfordeling udtrykker derimod den fuldstændigt jævne fordeling omkring en middelværdi, se normalfordeling.

Asymmetri Skewness γ (gamma) Udtryk for skævhed i en fordeling, i forhold til hvor mange udfald der ligger henholdsvis til højre og venstre for toppunktet. Der skelnes mellem positiv asymmetri, hvor der er størst udfald til højere for toppunktet, og negativ asymmetri med størst udfald til venstre for topppunktet. χ2-distributionen vil eksempelvis altid være skævt fordelt. Normalfordelingen er til gengæld perfekt symmetrisk. Modal asymmetri (Pearsons), moment asymmetri, kvartil asymmetri (Bowley’s)

Asymptote Asymptote En lige linje, som en fordelings ”haler” følger. I eksemplet nedenfor vises normalfordelingens asymptote, Y=0 markeret med rødt.

Asymptotisk fordeling, hyperbolsk fordeling

Asymptotic distribution, hyperbolic distribution

Fordeling som følger en asymptote. Bellcurve (normalfordelingen), Sigmoid fordelingskurve (logistisk regression), en hyperbel og F-fordelingen (χ2) er eksempler på asymptotiske fordelinger. Det vil sige at deres ”haler” nærmer sig en akse/linje som deres værdier nærmer sig nul uden at ramme nul. Det nævnte eksempel er vandret og lodret asymptotisk.

Eksempelvis: x

y1= (hyperbel)

Ω = -∞; ∞] En parabel, fordelingskurve udtrykt ved xz, eksempelvis ved en multipel regression med potensled, er ikke en hyperbolsk fordeling.

Baggrunds-variabel

Background variable

Variabel som beskriver baggrundsspørgsmål, som ofte ikke er af direkte teoretisk relevans i forhold til afdækning af en anvendt hypotese. Alder, navn, ægteskabelig status, bopæl m.m. Holdningsspørgsmål, kognitive og faktuelle spørgsmål

Page 7: Forklaring af kvantitative og statistiske begreber til ... · Forklaring af begreb Andet lignende eller associeret begreb Eksempel Kritiske værdier / udfaldsrum Vær opmærksom på

Forklaring af begreb Andet lignende eller associeret begreb

Eksempel Kritiske værdier / udfaldsrum

Vær opmærksom på Udregnes som / formel

7

Baglæns modelsøgning

Backwards stepwise model

Regressionsmodel, som starter med alle datasættets variable og udtager variable for at se hvilken forklaringskraft det giver ud de anvendte variables signifikansværdier. Er hensigtsmæssigt hvis datasættet indeholder få variable og der ikke er nogle hypotetiske sammenhænge. Modsat forlæns modelsøgning. Der startes med en fuld model, som angiver en forklaringsværdi. Derefter udtages variable enkeltvis, hvor den mistede forklaringsværdi er den forrige models forklaringsværdi minus den aktuelle models forklaringsværdi. Er uhensigtsmæssig, når man har mange variable og/eller variable kan mistænkes for multikollinearitet eller at være udtryk for samme uobserverede forhold.

Behrens-Fisher problemet

The Behrens-Fisher problem

Kontroversiel omgåelse af dillemma i test hvor to fordelinger skal sammenlignes i f.eks. T-test som kræver ens varians, og hvor det må formodes, at fordelingerne IKKE har samme varians. Forskelligheden i varians ignoreres, hvorved det sande mål erstattes af et skøn. I en repræsentativ stikprøve forekommer det realistisk, at stikprøvens kendte varians kan være den samme som populationens ukendte.

Bellcurve, Gauss’sk fordelingskurve, sandsynlighedsfordelingen for en normalfordeling

Bellcurve, Gaussian curve

Normalfordelingen har en bellcurve-form, som er en fordeling med toppunkt omkring en middelværdi med største udfald, samt en varians, σ2, der beskriver spredningen i fordelingen: N(µ,σ2).

χ2-fordeling

Bernoulli-fordeling

Bernoulli distribution

Y~Ber (p) En population, hvor Y kun kan antage to forskellige værdier, dvs. de er binære. Y er en Bernoullifordelt variabel. P angiver sandsynligheden for succes. 1: Køn – udfaldsrum: ’mand’, ’kvinde’ 2: Antal – udfaldsrum: ’8 stk.’, ’over eller under 8 stk.’

µ

0

Page 8: Forklaring af kvantitative og statistiske begreber til ... · Forklaring af begreb Andet lignende eller associeret begreb Eksempel Kritiske værdier / udfaldsrum Vær opmærksom på

Forklaring af begreb Andet lignende eller associeret begreb

Eksempel Kritiske værdier / udfaldsrum

Vær opmærksom på Udregnes som / formel

8

Eksempel nr. 2 er et eksempel på at en variabel med mere end to mulige udfald, kan omkodes, så den kun indeholder to udfald. Det er i nogle tests vigtigt, at binære data er kodet hhv. 0 og 1 for at undgå fejllæsning af resultater. Binomialfordeling.

Betinget sandsynligheds-funktion

Conditional probability function

)( BAP

At en sandsynlighed er betinget af et udfald, givet ved hver deres stokastiske variabel. Sandsynligheden for at gennemføre en videregående uddannelse, hvis forældre har håndværksmæssig uddannelse.

)(

)()(

BP

BAPBAP

∩= ,

hvor A er den betingede sandsynlighed og B er den sandsynlighed A er betinget af.

Bias, skævhed Bias Unormale fejlbehæftede udsving fra fordelingen. Hvis en stikprøve på populationen ikke er vægtet trods anden fordeling af baggrundsvariablen vil den beskrives som biased. Residual

Binomialfordeling

Binomial distribution

Y~Bin (n, p)

Binomialfordelingen beskriver antal gange, x, en hændelse indtræffer i n uafhængige forsøg, der har dikotomt/binært udfaldsrum (Bernoullifordeling). Indtruffet hændelse betegnes ’succes’ og ikke-indtruffet hændelse betegnes ’fiasko’. Disse angives typisk henholdsvis som 1 og 0 i matricen for at gøre statistisk beregning nemmere. Køn – udfaldsrum: [mand, kvinde] Bernoullifordeling, multinomialfordeling.

Binomial-koefficient

Binomial coefficient

k

n

Forholdstal, som fremkommer når man udtrækker n elementer uafhængigt af hinanden fra en Bernoullipopulation. Dermed har hvert udtræk sandsynligheden p for succes. Pga. uafhængigheden antages det, at sandsynligheden vil være den samme ved hvert udtræk.

Page 9: Forklaring af kvantitative og statistiske begreber til ... · Forklaring af begreb Andet lignende eller associeret begreb Eksempel Kritiske værdier / udfaldsrum Vær opmærksom på

Forklaring af begreb Andet lignende eller associeret begreb

Eksempel Kritiske værdier / udfaldsrum

Vær opmærksom på Udregnes som / formel

9

333,0)1()123(

12

3

2≈

−∗∗∗∗=

Ω =0;1, n<k

)!!*(

!

knk

n

k

n

−=

Hvor n er antal elementer og k er mulige succeser.

Binære data Se Bernoulli-fordeling

Booleansk algebra

Boolean algebra

Logiske betingelser, eksempelvis A∩B, A≠B, A≤B; X skal tilhøre enten, eller både A og B. Anvendes til filtrering i datasæt, hvor man for eksempel kun ønsker at se på højtuddannede kvinder, dvs. at man opstiller den betingelse, at de data man ser på, tilhører kategorierne ’højtuddannet’ og ’kvinde’. Booleansk algebra anvendes også på søgemaskiner som Google: søgning på ’welfare model’ giver resultat med hjemmesider som indeholder begge ord eller et af ordene. Ved surveyfiltrering kan booleansk algebra betegne en betingelse af, hvilke spørgsmål der ønskes besvaret: Hvis respondenten besvarer spg. 7 med ’ugift’, springes direkte til spg. 20. Betinget sandsynlighed

Boxplot diagram Boxplot Diagramtype som angiver en variabels kvartiler og yderværdier. Er hensigtsmæssig ved illustration af mange variables fordeling. Vær opmærksom på kvartilers illustrative tolkningsbegrænsninger.

BSS BSS BSS ‘Between groups sum of squares’. Den forklarede del af TSS. Hvis denne er høj i forhold til WSS, betyder det stor afvigelse mellem de sammenlignede variable i testen.

Yderpunkt 3. kvartil Median 1. kvartil Yderpunkt

Page 10: Forklaring af kvantitative og statistiske begreber til ... · Forklaring af begreb Andet lignende eller associeret begreb Eksempel Kritiske værdier / udfaldsrum Vær opmærksom på

Forklaring af begreb Andet lignende eller associeret begreb

Eksempel Kritiske værdier / udfaldsrum

Vær opmærksom på Udregnes som / formel

10

TSS, WSS, Anova

Burt-matrice Burt matrix Matrice/tabel, som opdeler angivne data med flere variable, adskilt i blokke med 2-dimensionelt diagram, som beskriver to variable pr. blok. Overfor hinanden. Tabel-formen er således særligt anvendelig til grafisk fremstilling af flere end 3 dimensioner, og anvendes derfor til multipel korrespondence. - Var 1 vs.

Var 2 Var 1 vs. Var 3

Var 1 vs. Var 4

Var 1 vs. Var 2

- Var 2 vs. Var 3

Var 2 vs. Var 4

Var 1 vs. Var 3

Var 2 vs. Var 3

- Var 3 vs. Var 4

Var 1 vs. Var 4

Var 2 vs. Var 4

Var 3 vs. Var 4

-

Central (unbiased) estimator

Central (unbiased) estimator

µ=)(XE For en simpel tilfældig stikprøve for middelværdien µ, vil estimatet være det samme som µ. Hvis der ikke indtræder skævheder i data, bør middelværdien være den samme i stikprøven, som i den virkelige population, eksempelvis bør kønsfordelingen i en stikprøve for Danmark være ca. 50/50.

Centroide Centroide Middelprofil i korrespondanceanalyse, som ligger ved origo.

χ2-fordeling,

Chi2-fordeling χ2-distribution χ

2 (store chi)

Distribution under illustrationens kurve med areal = 1. I χ2-testen afgrænses arealet, som dermed er < 1 under kurven af værdien på x-aksen, som kan antage alle positive værdier. Jo højere værdi, jo mindre er sandsynligheden for at møde en anden fordeling i den virkelige population. Antallet af frihedsgrader influerer desuden på fordelingens spredning. Gående mod ∞ vil χ2-fordelingen nærme sig en asymptote X=0. Man ønsker at teste, om udfaldene i en krydstabel med to variable kan komme fra en anden fordeling end den pågældende, givet denne fordeling. Χ2-fordelingen bruges også til Likelihood Ratio tests, der under visse betingelser er approksimativt χ2-fordelt med forskellen i parametre mellem de to modeller som antal frihedsgrader. Normalfordeling

Page 11: Forklaring af kvantitative og statistiske begreber til ... · Forklaring af begreb Andet lignende eller associeret begreb Eksempel Kritiske værdier / udfaldsrum Vær opmærksom på

Forklaring af begreb Andet lignende eller associeret begreb

Eksempel Kritiske værdier / udfaldsrum

Vær opmærksom på Udregnes som / formel

11

χ2 =0;∞

χ2-test χ

2-test χ2 (store

chi) Tester hvorvidt der er sammenhæng mellem to diskrete stokastiske variabler. Eksempelvis kan en variabel falde med den anden variabels stigning eller de kan begge stige sammen, hvor der således testes for uafhængighed mellem disse. En test mellem variablen personvægt og energiforbrug vil sandsynligvis have en høj χ2 værdi (over den kritiske χ2-værdi, såsom 0,004 ved 5% signifikansniveau og 1 frihedsgrad), som fortæller at det er meget sandsynligt, at der er sammenhæng. F-test χ2 =0;∞

Den centrale grænseværdisætning

Central limit theorem

)/,(~ 2 nNX A σµ

Eksperimentets udfald vil være approximativt normalfordelt når n er stor. Kan eksempelvis testes med en terning. Ved få kast vil fordelingen typisk være ujævn, men jo flere kast, jo mere vil fordelingen nærme sig en normalfordeling.

Circumflex Circumflex, caret

^ Anvendes ved udtryk for en estimator. Se estimator

Common Social Fluidity

Common Social Fluidity

CnSF Samfundsvidenskabeligt begreb som bruges ved likelihood ratio tests.

Data mining Data mining Explorativ analysemetode, hvor man først forsøger at finde mønstre i data og derefter forklare, hvorfor der er disse forhold. Metoden er kritiseret for sin efterrationaliserende karakter, som kan indeholde spuriøse sammenhænge.

Deduktion Deduction Udtrækning af population til stikprøve. Modsat induktion. Eksempelvis lottoudtrækning, hvor populationen er de numre, som kan udtrækkes og stikprøven er de udvalgte numre.

Page 12: Forklaring af kvantitative og statistiske begreber til ... · Forklaring af begreb Andet lignende eller associeret begreb Eksempel Kritiske værdier / udfaldsrum Vær opmærksom på

Forklaring af begreb Andet lignende eller associeret begreb

Eksempel Kritiske værdier / udfaldsrum

Vær opmærksom på Udregnes som / formel

12

Determinerings-koefficient

Coefficient of determination

R2 Udtryk for regressionens forklaringsværdi. Jo højere værdi, jo mere af den afhængige variabel er regressionen i stand til at forklare. Hvis R2 = 0,15, så forklarer den 15% af den afhængige variabel. β-estimat R2 =0;1

TSS

SSETSSr

−=2

Diskret variabel Discreet

variable På en diskret variabel er det kun hele tal som kan

antages. Diskrete variable beskriver med andre ord noget der kan tælles. Eksempelvis antal personer eller øjne på en terning. Værdien på et udfald af slag med terning kan ikke være 3,2.

Dobbeltsidet hypotese

Doublesided hypothesis

I en dobbeltsidet hypotese har det relevans om resultatet af testen giver et udfald mere eller mindre end nulhypotesen i modsætning til en enkeltsidet hypotese, hvor alternativhypotesen blot skal afvige fra nulhypotesen. H0: µ1 = µ2 H1: µ1 < µ2

H2: µ1 > µ2 µ1 : lønniveau for kvinder i ledende stillinger i Danmark µ2 : lønniveau for kvinder i ledende stillinger i Sverige. Her kan eksempelvis være hypotetiske årsager til at mene, at den ene middelværdi er højere end den anden, men testen kan også vise sig at der ikke er forskel eller at det forholder sig omvendt. Enkeltsidet hypotese.

Dummyvariabel Dummy variable

d Anvendelse af en binær variabel, som indikerer tilstedeværelsen eller fraværet af en kategoriel eller diskret effekt. I regression kan man forstå en dummy-variabel som et niveau-skifte i forhold til konstantleddet. Brugen af dummy-variabel har den hensigtsmæssige funktion at øge model fit samtidig med at det kræver mindre antal frihedsgrader og giver bedre generaliserbarhed af

Page 13: Forklaring af kvantitative og statistiske begreber til ... · Forklaring af begreb Andet lignende eller associeret begreb Eksempel Kritiske værdier / udfaldsrum Vær opmærksom på

Forklaring af begreb Andet lignende eller associeret begreb

Eksempel Kritiske værdier / udfaldsrum

Vær opmærksom på Udregnes som / formel

13

modellen. Dummyvariabel ’uddannet’/’ikke uddannet’, hvor uddannelse ikke er af teoretisk relevans for hypotesen. Skal være kodet 0/1 for tilstedeværelse/ikke tilstedeværelse. Fejlled, regressionsanalyse, korrespondanceanalyse.

Egenværdi Eigenvalue Udtryk for en vektors styrke Korrespondenceanalyse, faktoranalyse, principal komponent analyse.

Eksperiment Experiment, randomized experiment, trial

Et forsøg med en mængde hændelser, som forudsætter vilkårlighed. Kast med en terning, udvælgelse til session.

Ekstrapolering Extrapolation Udsigelse om forhold uden for datas udfaldsrum. BNP har udviklet sig eksponentielt over en årrække og via. ekstrapolering af data forventer man at denne udvikling fortsætter. Betragtes typisk meget kritisk indenfor sociologien, da humanvidenskab/samfundsvidenskab har alt for mange ukendte variable til forudsigelser.

Endogenitet Endogeneity Udsigelse om at forhold i variationen på en variabel, x, påvirker variationen i variablen y. Ved perfekt samvarians tales der om multikollinearitet. Langt de fleste variable er endogene, dvs. påvirket af andre forhold, og ofte flere forskellige forhold, hvor ikke alle forhold nødvendigvis er observerbare. Må ikke forveksles med korrelation, som udtrykker sammenhæng mellem variable. Endogenitet udtrykker påvirkningsretning. Modsat exogenitet, kausalitet

Enkeltsidet hypotese

One sided hypothesis

En test hvor det kun testes om værdien er enten højere eller lavere. Som modsætning er den dobbeltsidede test. F-test Eksempel 1:

Page 14: Forklaring af kvantitative og statistiske begreber til ... · Forklaring af begreb Andet lignende eller associeret begreb Eksempel Kritiske værdier / udfaldsrum Vær opmærksom på

Forklaring af begreb Andet lignende eller associeret begreb

Eksempel Kritiske værdier / udfaldsrum

Vær opmærksom på Udregnes som / formel

14

H0: µ1 = µ2 H1: µ1 ≠ µ2

µ1 : lønniveau for kvinder i ledende stillinger i Danmark µ2 : lønniveau for kvinder i ledende stillinger i Sverige. Her ønskes det blot at undersøge, hvorvidt lønniveauet er det samme eller ej. Eksempel 2: H0: µ = b H1: µ ≠ b

Her ønskes det testet, om middelværdien, µ, kan være ligmed b eller ej. Dobbeltsidet hypotese.

Enquete Enquete Indsamling med anvendelse af udsendt materiale. Eksempelvis med post eller internet. Telefoninterview og besøgsinterview.

Estimator/ estimat

Estimator, expected

E, X)

Et skøn på ukendte størrelser i populationen udregnet på baggrund af en stikprøve. En stikprøves karakteristika (middelværdi, varians, spredning m.m.) kan anvendes som estimator for sande værdier.

Eksempelvis estimeret middelværdi )(XE som estimat

for den sande middelværdi, µ. Estimatets værdi kan forventes at være ligmed den sande værdi, hvis den forventede værdi er beregnet på en simpel tilfældig stikprøve. Dette kaldes en central, unbiased eller middelret estimator.

Estimeret middelværdi

Estimated mean

)(XE Et estimat af en ukendt populations middelværdi regnes ud fra en stikprøve. Middelværdien af løn anslås til at være 18.435,-, da dette er stikprøvens middelværdi. Modalværdi.

)(*))...(*1

()( 21 En

NXXX

nEXE n =+++=

Euklidisk afstand Euclid Afstand i et multidimensionelt rum mellem vektorer,

Page 15: Forklaring af kvantitative og statistiske begreber til ... · Forklaring af begreb Andet lignende eller associeret begreb Eksempel Kritiske værdier / udfaldsrum Vær opmærksom på

Forklaring af begreb Andet lignende eller associeret begreb

Eksempel Kritiske værdier / udfaldsrum

Vær opmærksom på Udregnes som / formel

15

distance eksempelvis ved korresponcanceanalyse. Vægtet euklidisk afstand, kartesisk koordinatsystem.

Evalueringsspørgsmål

Evaluation question, evaluative question

Forsøger at måle respondentens vurdering af en situation. ”Føler du dig ofte stresset?” Modsat faktuelle spørgsmål

Exogenitet Exogeneity Forekommer når en variabel er fuldstændig uafhængig af andre forhold som eksempelvis ved naturlige eksperimenter. Se endogenitet

F-fordeling, Fisher-fordeling

F-distribution, Snedecor’s F-distribution

En-sidet fordelingskurve. d = frihedsgrader Anvendes ved χ2-test og F-test. F =0;∞ – dog sjældent over 250.

F-test F-test Tester to modeller med forskelligt antal parametre overfor hinanden. Der testes på forskellen i forklaringsevne. Derfor undersøges forskellen mellem de to modeller. En model med køn, indkomst og uddannelse vs. En model med køn og indkomst som forklarende variable. F =0;∞ – dog sjældent over 1000.

F-værdi Sandsynlighed

Page 16: Forklaring af kvantitative og statistiske begreber til ... · Forklaring af begreb Andet lignende eller associeret begreb Eksempel Kritiske værdier / udfaldsrum Vær opmærksom på

Forklaring af begreb Andet lignende eller associeret begreb

Eksempel Kritiske værdier / udfaldsrum

Vær opmærksom på Udregnes som / formel

16

2

2

12

21

pn

RSS

pp

RSSRSS

F

−−

=

Falsk korrelation, spuriøs korrelation

False correlation, spurious correlation

En sammenhæng som ikke er kausal trods matematisk sammenhængskraft i form af β-estimat m.m. Eksempelvis antal graviditeter afhængigt af antal storke, eller hvis to variable med korrelation beskriver det samme: højde i meter og højde i tommer. Det kan eksempelvis være en tredje faktor, som får de to samvarierende faktorer til at ændres.

Faktor analyse Factor analysis

Datareduktionsmetode, som antager, at en række målelige variables udfald skyldes en bagvedliggende faktor, som er svære/umulige at måle direkte. Anvendelse af variablene ”uddannelsesretning”, ”tøjsmag”, ”favorit TV-program” m.m. til at skabe en faktor for kulturel kapital. Anvendelse af variablene ”testscore i sproglig intelligens”, ”testscore i kreativ intelligens”, ”testscore i motorisk intelligens” m.m. til at skabe en faktor for generel intelligens.

Faktuelle spørgsmål

Factual question

Forsøger at besvare hændelser. ”Hvornår er du født?”. Se også holdningsspørgsmål og kognitive spørgsmål

Fakultet Factorial ! Multiplikation med hvert hele tal lavere end numeratoren: n! for n=3 betyder 3*2*1=6 ))...(3(*)2)¨*(1(*! mnnnnnn −−−−=

Givet at m=n-1

Fejlled, restled, støjled

Error term, disturbance term

ε (lille epsilon)

Den del af regressionens afhængige variabel som de uafhængige variable ikke kan forklare. Restleddet kan bestå af både stokastisk (tilfældige) og systematiske komponenter. Støj af et vist omfang er uundgåeligt, da virkeligheden aldrig er 100% målbar, men systematiske komponenter ønskes normalt så vidt muligt begrænset.

Page 17: Forklaring af kvantitative og statistiske begreber til ... · Forklaring af begreb Andet lignende eller associeret begreb Eksempel Kritiske værdier / udfaldsrum Vær opmærksom på

Forklaring af begreb Andet lignende eller associeret begreb

Eksempel Kritiske værdier / udfaldsrum

Vær opmærksom på Udregnes som / formel

17

For alle For all

FMatematisk operator, som beskriver at et udsagn til venstre for tegnet gælder for alle

Fordelt Distributet ~ Fordelingen af en variabel. Y~N betyder den normalfordelte variabel Y. Operatoren bruges også til at beskrive korrelation og logisk negation

Fordeling af teststatistik

Distribution of test statistics

Se Z-test og T-test.

Foreningshændelse

United occurrance, union, cup

BA ∪ Udfald som enten indgår i A eller B. Personer som er skilt eller separeret. Fælleshændelse.

Forkastelse af hypotese

Rejection of hypothesis

Se Z-test En hypotese forkastes, hvis værdien er anderledes end den forventede under denne hypotese. H0: pDanmark=pSverige<0,5. H1: pDanmark≠pSverige

H2: pDanmark≥0,5 H3: pSverige≥0,5

Læg mærke til at nulhypotesen i eksemplet indeholder to forhold. Nulhypotesen forkastes her både, hvis sandsynligheden er højere end lig med eller højere end 0,5 og hvis pDanmark er forskellig fra pSverige.

Forklaringskraft Explanatory power

(R2) Angivelse af hvor meget eksempelvis en regressions afhængige variabel enkeltvist eller samlet kan forklares ud fra dens uafhængige variable. I lineære regressioner anvendes R2 som forklaringskraft. Hvis forklaringsvariablen x er ligmed udfaldsvariablen y. Dette vil også forekomme, hvis de har forskellig skalering, eksempelvis konvertering af møntfod, såsom x=yen og y=kroner. Hvis forklaringskraften er ligmed 0,132 (beskrives typisk med 3 decimaler), så kan forklaringskraften med modellen/variablen så at sige beskrives som 13,2% af den

Page 18: Forklaring af kvantitative og statistiske begreber til ... · Forklaring af begreb Andet lignende eller associeret begreb Eksempel Kritiske værdier / udfaldsrum Vær opmærksom på

Forklaring af begreb Andet lignende eller associeret begreb

Eksempel Kritiske værdier / udfaldsrum

Vær opmærksom på Udregnes som / formel

18

forandring der sker med udfaldet. Ω =0;1 0=ingen forklaringskraft og 1=fuld forklaringskraft. Fuld forklaringskraft opstår kun ved total sammenhæng. Fuld forklaringskraft vil i praksis betyde at variablerne er ens.

Forlæns modelsøgning

Forwards stepwise model

Regressionsmodel, som starter uden variable og lader nye variable indgå for at se hvilken forklaringskraft det giver. Er hensigtsmæssigt hvis man har en formodning om hypotetisk sammenhængende variable og/eller hvis antallet af variable er lille. Modsat baglæns modelsøgning.

Forsøg, eksperiment

Experiment For at teste en stikprøves udsigelseskraft om en population, et variansestimats rigtighed m.m., udføres et forsøg. I forsøget indgår hypoteser, typisk bestående af en nulhypotese og en eller flere alternativhypotese.

Forventet værdi (middelværdi)

Expected value

E, exp Forventet værdi af summen af stokastiske variabler, se middelværdi. E(a*X+b*Y) ”E” bruges både som estimator og forventet værdi. Modalværdi, median.

Fraktil

Fractile, quantile

p, q (nb! P bruges også ved sandsynlighed)

Fraktiler angiver et udfalds placering i et udfaldsrum. q0,5 kaldes medianen, som er den midterste værdi i udfaldsrummet. Q0,25 og q0,75 kaldes kvartiler q0,1, q0,2,…,q0,9 kaldes deciler q0,01, q0,02,…,q0,99 kaldes percentiler

Fraktil-fraktil-plot, q-q plot

Quantile-quantile-plot

(q, q)-plot Fraktilplot anvendes på samme måde som probability-probability plot, med den ene forskel, at den giver en anderledes fordeling ved lille antal individer, idet fraktiler anvendes som x-akse.

Frihedsgrader Degrees of freedom

df Hver frihedsgrad udgør muligheden for tilvalget af en attribut – så at sige tilvalget af et ukendt forhold. En χ2-fordelings frihedsgrader får fordelingen til at nærme sig nul ved få frihedsgrader og fjerne sig fra nul ved mange frihedsgrader.

Page 19: Forklaring af kvantitative og statistiske begreber til ... · Forklaring af begreb Andet lignende eller associeret begreb Eksempel Kritiske værdier / udfaldsrum Vær opmærksom på

Forklaring af begreb Andet lignende eller associeret begreb

Eksempel Kritiske værdier / udfaldsrum

Vær opmærksom på Udregnes som / formel

19

Bruges eksempelvis ved χ2-fordeling, t-fordeling og F-fordeling. I en χ2-test mellem to binære variable, er antallet af frihedsgrader = (2-1)*(2-1)=1 df =0, 1, 2 … ∞ χ2-fordeling: (rækker-1)*(kolonner-1).

Fælleshændelse Common occurrence, intersection, cap

BA ∩ Udfald som indgår i både A og B. Individer som har både skæg og blå briller. Foreningshændelse.

Gamma-test Gamma-test γ (lille gamma)

Test som anvendes på ordinale variable, til at udsige hvor stærkt to variable er associeret. Lave værdier indikerer negativ association, høje værdier indikerer positiv association, og værdier omkring 0 indikerer at der ikke er nogen association. Ω =-1,1

Generaliserede lineære modeller

Generalized linear models, GLM

Anvendes til regressionsanalyse på en afhængig variabel, som antager diskrete værdier.

Gini-koefficient Gini coefficient

G Mål for grad af ulighed i fordeling. Test for om individer med forskellige egenskaber har samme indkomst. Ω =0;1 Angives som areal under kurven. Lav ginikoefficient gående mod 0 angiver lige fordeling, høj ginikoefficient angiver høj variation i fordeling.

Residualplot

Hazard funktion Hazard function

Betinget longitudinel sandsynlighedsfunktion, som angiver sandsynligheden for at forlade den beskrevne tilstand, givet at man ikke har forladt den før dette

Lorenz kurve

Gini-koefficient

Page 20: Forklaring af kvantitative og statistiske begreber til ... · Forklaring af begreb Andet lignende eller associeret begreb Eksempel Kritiske værdier / udfaldsrum Vær opmærksom på

Forklaring af begreb Andet lignende eller associeret begreb

Eksempel Kritiske værdier / udfaldsrum

Vær opmærksom på Udregnes som / formel

20

tidspunkt. Værdi for tiden t1=0,5. Hvad er da sandsynligheden for at værdien er >0,5 ved tiden t2.

Hetero-skedasticitet (varians-heterogenitet)

Heteroskedasticity

Forhold der beskriver, om residualernes afvigelse fra middelværdien, beskrevet ved en funktionslinje, varierer lige meget i forhold til den afhængige variabel eller ej. Heteroskedasticitet betyder at residualerne varierer ujævnt, dvs. at udfaldene i den ene ende af skalaen for variablen eksempelvis varierer mere end i den anden ende, eller at variablen varierer mere på midten end i enderne. I den ende, hvor residualerne afviger mest, er modelsikkerheden mindre. Det er derfor ønskeligt at opnå homoskedasticitet frem for heteroskedasticitet. Det er desuden en antagelse i anvendelse af OLS-regression, at der ikke optræder heteroskedasticitet. Et eksempel på heteroskedasticitet kan være, at en simpel lineær regression mellem indkomst (X) og alder (Y) har store afvigelser i residualer blandt individer over 50 år på grund af svagere udsigelsesevne. Modsat homoskedasticitet. Gini-koefficient udtrykker afvigelse, ikke spredning. Se også residualplot som illustration af homo/heteroskedasticitet. I eksemplet nedenfor optræder der heteroskedasticitet pga. den større varians/spredning i højre side.

Histogram Histogram, block diagram

Grafisk afbildning af kategori-inddelte skalerbare variable i kategorier med samme afstand mellem kategorier. Afbildning via. histogram vil være misvisende ved variable uden samme afstand mellem kategorier, da det indikerer en flydende overgang mellem kategorier. Her bør i stedet anvendes søjlediagram. Det diskuteres endog hvorvidt man overhovedet bør anvende histogram i det hele taget.

X

^ Y

Page 21: Forklaring af kvantitative og statistiske begreber til ... · Forklaring af begreb Andet lignende eller associeret begreb Eksempel Kritiske værdier / udfaldsrum Vær opmærksom på

Forklaring af begreb Andet lignende eller associeret begreb

Eksempel Kritiske værdier / udfaldsrum

Vær opmærksom på Udregnes som / formel

21

Holdnings-spørgsmål

Positional question

Forsøger at måle subjektiv stillingtagen hos respondenten. ”Hvor høj synes du at grundskatten skal være i Danmark?”. ”Hvad stemmer du?” er ikke et holdningsspørgsmål men et faktuelt spørgsmål, som afspejler en holdning. Se også faktuelle og kognitive spørgsmål

Homoskedas-ticitet (varians-homogenitet), Gauss-M arkov-teoremet

Homoscedasticity, the Gauss-Markov-theorem

Et udtryk for at standardafvigelsen ikke afviger i forhold til middelværdien, men tværtimod har samme spredning over hele skalaen for variablen. Modsat heteroskedasticitet. Gini-koefficient udtrykker afvigelse, ikke spredning. Se også residualplot som illustration af homo/heteroskedasticitet.

Hosmer-Lemeshow-test

Hosmer-Lemeshow-test, goodness of fit

Anvendes til at teste, hvor godt modellen passer sammen med data. Testen opdeler data i 10 lige store grupper. I modsætning til Pearson-korrelation, kan testen anvendes, hvor de uafhængige variable er skalerbare, men har den begrænsning, at den kun kan anvendes på modeller med en binær afhængig variabel. Testen egner sig derfor til logistiske regressioner. Ω = χ2-fordelt Se også likelihood-ratio test

Hovedeffekt Main effect I multivariate analyser er hovedeffekten den isolerede variabels forklaringskraft.

Page 22: Forklaring af kvantitative og statistiske begreber til ... · Forklaring af begreb Andet lignende eller associeret begreb Eksempel Kritiske værdier / udfaldsrum Vær opmærksom på

Forklaring af begreb Andet lignende eller associeret begreb

Eksempel Kritiske værdier / udfaldsrum

Vær opmærksom på Udregnes som / formel

22

Køn=0,087, når de to eller flere variable ganges, eksempelvis kønsvariabel * indkomst. Effekten af de multiplikerede variable, køn*indkomst=0,210, kaldes interaktionsled. Modsat interaktionseffekt Ω =0;1 En models interaktionsled med signifikans kan medtages i en model uden at de singulære variable har forklaringskraft, som i eksemplet nedenfor, hvor indkomst alene ikke har forklaringskraft. Variabel Forklaringskraft

Køn 0,087 Indkomst 0,000 Køn * indkomst (interaktionsled)

0,210

Den hypergeo-metriske fordeling

The Hyper geometric distribution

Fremkommer ved udtræk n elementer til en stikprøve fra en virkelig Bernoullipopulation uden tilbagelægning. I samfundsvidenskabelige udtræk anvendes normalt udtræk uden tilbagelægning, da man ikke ønsker en respondents svar to gange. Man kan dog nogle gange antage, at udtrækket kommer fra en fordeling med tilbagelægning, da dette har statistiske fordele. Relevans for binomial- og hypergeometrisk fordeling er de tests som kan foretages. Tæt relateret til binomialfordeling, som er med tilbagelægning.

Hypotese Hypothesis H0, H1 Udførelse af en test på baggrund af stikprøve, hvor populationens egenskaber forsøges udsagt på baggrund af stikprøven. H0: µkvinder = µmænd Den hypotetiske værdi beskrives med 0, dvs. nulhypotesen, udtrykker hvorvidt testes positiv, dvs. eksempelvis µ0. Hypoteser kan eksempelvis udsige noget om forholdsmæssige størrelser af middelværdier, konfidensinterval, sandsynligheder, varians, forklaringsevne m.m.

Hypotetiske sandsynligheder

Hypothetic probabilities

π1, π2,…, πk De hypotetiske sandsynligheder ved en test.

Page 23: Forklaring af kvantitative og statistiske begreber til ... · Forklaring af begreb Andet lignende eller associeret begreb Eksempel Kritiske værdier / udfaldsrum Vær opmærksom på

Forklaring af begreb Andet lignende eller associeret begreb

Eksempel Kritiske værdier / udfaldsrum

Vær opmærksom på Udregnes som / formel

23

Ω =0;1

Hældningsgrad, hældningstal

Se koefficient

Hændelse Occurance En samling af udfald. Kast med en terning 4 gange, hvor udfaldet er (1, 3, 6, 2). Udfaldsrum beskriver mulige hændelser, hvor hændelser beskriver udfald som er sket.

Hændelses-algebra

Occurance algebra

Eksperimentets samlede mulige serie af udfald. Tre kast med en terning: seks mulige udfald gange 3.

Identisk med Identical to ≡

Matematisk operator, som beskriver identiske udsagn på hver side af tegnet. Almindeligt lighedstegn ”=” kan derimod anvendes som

”⇒”, dvs. at et udsagn medfører et resultat. Ex. hvis X=2,

så kan det udledes, at 4X-5=3, men udsagnet på hver side af lighedstegnet er ikke identiske.

Ikke Not c Matematisk operator Xc = det som ikke er X.

Ikke-lineær regression

Non-linear regression

En regression af variablen Y afhængig af led opløftet i potens m.m. på variable, giver en ikke-lineær regressionskurve. Tilknyttet denne er et interaktionsled, som er den samlede effekt af de andre variablers β -

estimater. Eksempel gives en parabelform af et kvadratled på en variabel. I tredje potens vil den ene ende af kurven svinge op og den anden ned.

Individ Unit i De enkelte enheder med tilknyttede udfald i en population. Personer med forskellige karakteristika, som hver repræsenterer en variabel. Ikke nødvendigvis personer, eksempelvis øjne på en terning.

Page 24: Forklaring af kvantitative og statistiske begreber til ... · Forklaring af begreb Andet lignende eller associeret begreb Eksempel Kritiske værdier / udfaldsrum Vær opmærksom på

Forklaring af begreb Andet lignende eller associeret begreb

Eksempel Kritiske værdier / udfaldsrum

Vær opmærksom på Udregnes som / formel

24

Indsamlingssoftware

Software beregnet på at indsamle kvantitative data. Indsamlingssoftware indeholder ofte begrænsede muligheder for analyse. Indsamlingssoftware er ofte browserbaserede. Inquisite, SurveyPro, SurveyXact, Creuna og mange flere. Analysesoftware. Gratis indsamlingssoftware kan kræve, at programudvikleren gives adgang til de indsamlede data, idet data indsamles via. programudviklerens server.

Induktion Induction Udsigelse om population på baggrund af stikprøve. Udtræk på 5000 respondenter i Danmark. I modsætning til deduktion.

Inerti Inertia λ Anvendes i sammenhæng med korrespondenceanalyse, hvor inertien beskriver punkternes spredning fra origo, enkeltvist og samlet. Man vil typisk være interesseret i højest mulig samlet inerti, da det er udtryk for høj spredning mellem kategorierne. Kategorier kan, for at undgå skævvridning, udtages, hvis de har meget lav eller meget høj inerti.

Interaktionsled Interaction term

Se Hovedeffekt

Intercept, konstantled

Intercept β Det første Beta i multipel regression, skæringspunktet med 2. Aksen.

International klassificering

International classification

Ved indsamling af kvantitative data, anvendes nogle gange standardisering af datakodning, med henblik på at lette sammenlignelighed, hvor sproglige, kulturelle Ved arbejdstype anvendes ofte den internationale standard ”ISCO-88” og ved uddannelsesklassificering anvendes tilsvarende ”ISCED 1997”. Sammenligning kræver naturligvis varsomhed, da klassificeringsdatas indhold ikke nødvendigvis er kvalitativt sammenlignelige.

Intervalvariabel Interval variable

Variabel som kan rangordnes og har målbar afstand mellem mulige udfald. Hentes ud af en superpopulation. Temperatur kan antage uendeligt mange værdier og er

Page 25: Forklaring af kvantitative og statistiske begreber til ... · Forklaring af begreb Andet lignende eller associeret begreb Eksempel Kritiske værdier / udfaldsrum Vær opmærksom på

Forklaring af begreb Andet lignende eller associeret begreb

Eksempel Kritiske værdier / udfaldsrum

Vær opmærksom på Udregnes som / formel

25

derfor en skalerbar variabel. Den har ikke et matematisk nulpunkt (trods det fysiske) og temperatur ligmed nul grader er derfor ikke ensbetydende med ingen temperatur. Pga. den målbare afstand, har intervalvariable færre statistiske begrænsninger end kategorielle variable, som har begrænsede muligheder for statistiske tests. Ω =-∞;∞ Ratio variabel.

Instrumentel regression

IV regression, instrument variable regression

IV Regressionsmetode, hvor man søger et instrument (kausal variabel), som tilfældigt påvirker den afhængige variabel, Y, uden at instrumentet, Xinst, selv er påvirket af andre forhold, dvs. at den selv er fuldstændig exogen. Hvis et sådant instrument kan findes, kan det bruges til at teste korrelation i regressioner med flere afhængige og uafhængige variable. I virkeligheden findes kun meget få ægte instrumenter, hvilket kaldes naturlige eksperimenter. Militær session hører til de meget få tilfældige udvælgelsesmekanismer (lotteriudvælgelse) i virkeligheden.

Integrale Integral Matematisk metode, som gør det muligt at beregne hældningskoefficienten, β, et vilkårligt sted på en kurve.

Iteration Iteration Angiver antal gentagelser i computerberegning. Mål for hvor præcist et computerprogram udregner en test man kører. Antal iterationer, eksempelvis 100, har for eksempel betydning for, hvor mange decimaler beregning af en β-værdi angives med.

Kanonisk analyse

Canonical analysis, rectangular coordinate system

Kanonisk analyse er tæt relateret til regressionsanalyse. Kanonisk analyse adskiller sig her ved at indeholde flere forklarende og forklarede forhold i de anvendte variable, frem for regressionens anvendelse af prædefineret afhængig variabel.

Kartesisk koordinatsystem

Cartesian coordinate system

Et koordinatsystem, hvor afstande mellem punkter ikke afhænger af hvor punkterne er. Afstand mellem koordinaterne (1;1) og (2;2) er den samme som afstanden mellem (4:-4) og (3;-5) Korrespondancefelter er ikke kartesiske koordinatsystemer.

Page 26: Forklaring af kvantitative og statistiske begreber til ... · Forklaring af begreb Andet lignende eller associeret begreb Eksempel Kritiske værdier / udfaldsrum Vær opmærksom på

Forklaring af begreb Andet lignende eller associeret begreb

Eksempel Kritiske værdier / udfaldsrum

Vær opmærksom på Udregnes som / formel

26

Kategoriel variabel, nominel variabel

Categorial variable, nominal variable

Har et endeligt udfaldsrum, dvs. de er diskrete, og derfor eksisterer de i virkelige populationer. Der skelnes mellem nominelle og ordinale variable. Eksempelvis ’Hvilken sportsgren går du til’: Ω =fodbold; håndbold; ridning; andet I praksis anvendes blandt andet valuta-variable, eksempelvis løn, som kontinuerte variable, på trods af at de har et udfaldsrum begrænset af for eksempel øre-decimaler på et kronebeløb (et beløb på 1,111 kroner findes ikke i virkelig valuta).

Modsat kontinuerte variable, som har et uendeligt udfaldsrum.

Kausalitet Causality ∆(store delta) δ (lille delta)

Kausalitet indeholder mekanismer, som udgør årsagen til en påvirkning. Matching og instrumentel regression udgør metoder, som under visse antagelser kan teste kausale forhold. Kausalitet kan strengt taget ikke testes, selv ikke hvis empiri indeholder spørgsmål, hvor der spørges om årsag. Eksempelvis ”var stress årsag til at du skiftede arbejde?”. Kan ikke testes via. korrelationer mellem variable, dvs. med regressionmetode, χ2-test m.v. Vær opmærksom på dobbeltpilens betydning. Dette betyder ikke korrelation, men at kausalitet forekommer gensidigt. Reversibel kausalitet er eksempelvis antagelsen i mange teorier, som indeholder aktør vs. struktur niveau, herunder teoretiseringer af Pierre Bourdieu og Anthony Giddens. Kausalitetsbegrebet er tæt knyttet sammen med mekanismer. Korrelation og samvarians udtrykker derimod kun sammenhæng – ikke hvilken vej sammenhængen går.

Klyngeestimator Cluster estimator

k Bestemmelse af antallet af klynger ud fra en given størrelse, som er nødvendige for at opnå en repræsentativ stikprøve ud fra en given population.

Klynge-udvælgelse

Cluster selection

Indsamling af data fra population i klynger. Populationen inddeles i klynger af ens størrelse, hvorefter der udvælges et antal af disse. 500 individer fra område1, 500 individer fra område2, 500 individer fra område3. En praktisk metode for indsamling er at foretage klyngeudvælgelse, idet det kan være budgetbesparende

Page 27: Forklaring af kvantitative og statistiske begreber til ... · Forklaring af begreb Andet lignende eller associeret begreb Eksempel Kritiske værdier / udfaldsrum Vær opmærksom på

Forklaring af begreb Andet lignende eller associeret begreb

Eksempel Kritiske værdier / udfaldsrum

Vær opmærksom på Udregnes som / formel

27

samtidig med at forhøje udsigelsessikkerheden. Klynger kan i princippet godt have forskellige størrelser, men hvis de skal udvælges for at øge udsigelsessikkerhed, skal de have samme størrelse og være tilfældige. Ét-trins: Populationen inddeles i klynger af ens størrelse, hvorefter der udvælges et antal af disse. To-trins: Populationen inddeles i klynger af ens størrelse, hvorefter der udvælges et antal af disse. Herefter udtages igen en delmængde af de udtagne klynger. Strata

Koefficient Coefficient β (lille beta)

Hældningsgrad af en linje. For dummyer udtrykkker koefficienten et niveauskifte. For eksempel linien som beskriver sammenhængen mellem uafhængig og afhængig variabel i en regression. Se også Pearson korrelation. Ω =0;1 Gælder ikke kun rette linjer. β for en logistisk regression betegner hældningen i x=0,5.

Kognitive spørgsmål

Cognitive questions

Forsøger at måle respondentens viden Har du din egen virksomhed? Se også faktuelle spørgsmål og holdningsspørgsmål

Kohorte Cohort Gruppe af individer med visse ens egenskaber eller baggrund, som eksempelvis følges over en periode, dvs. longitudinelle kohorter. Fødselskohorte: individer født i samme år eller inden for en given periode.

Komma Comma, punctuation

, Anvendes ved udfaldsrum med faste udfald. Anvendes ved en nominel eller ordinal fordeling. Eksempelvis [0, 1, 2 … 7] anvendes ved udfald ligmed de hele tal fra 0 til 7.

Konfidens-interval, konfidens-

Confidence interval, confidence

∧I (I-circumflex eller I-

Et udtryk for hvilken størrelsesorden parametrene sandsynligvis har i en test indenfor et interval med en vis sikkerhed.

Page 28: Forklaring af kvantitative og statistiske begreber til ... · Forklaring af begreb Andet lignende eller associeret begreb Eksempel Kritiske værdier / udfaldsrum Vær opmærksom på

Forklaring af begreb Andet lignende eller associeret begreb

Eksempel Kritiske værdier / udfaldsrum

Vær opmærksom på Udregnes som / formel

28

område region caret) Ellers udtrykkes størrelsesordenen af en test ved at teste en hypotese, dvs. at teste ud fra en given sandsynlighed at det er realistisk at x er over, under eller ligmed en værdi. Wned og Wop udtrykker nedre og øvre grænse. Det kan for eksempel være mere hensigtsmæssigt at angive en sandsynlighed indenfor et interval, eksempelvis Sandsynligheden for at der er 10-20 % kvinder i byggebranchen end sandsynligheden for at der er præcis 10% kvinder. Beregning af konfidensinterval er ikke en test Ω =0;1

Konstantled Se intercept

Kontinuert variabel

Continued variable, continuous probability law

Har et uendeligt udfaldsrum, dvs. de er diskrete. Der skelnes mellem ratio og interval variable. Man taler derfor om at den tilhører en superpopulation, dvs. at den så at sige ikke er virkeligt eksisterende. Afstand mellem bolig og arbejde: Ω =0;∞

Modsat kategorielle variable, som har et endeligt udfaldsrum.

Kontrolvariabel Control variable

I en regression kan en kontrolvariabel anvendes for at teste spuriøse sammenhænge mellem uafhængige og afhængige variable. En multipel regression indeholder ”fars uddannelse” som uafhængig variabel og ”respondentens løn” som afhængig variabel. Denne testes med ”fars løn” som kontrolvariabel for at se om det i virkeligheden mere er denne som har betydning for ”respondentens løn”. Dette vil være tilfældet hvis den stjæler forklaringskraft fra ”fars uddannelse”, som derved bliver insignifikant.

Korrelation Correlation

Udtryk for sammenhæng mellem to eller flere forhold. Kausalitet

Korrelations-koefficient

Correlation coefficient

ρ(X, Y) (lille rho)

Udtryk for samvarians mellem to variable. Løn i kroner og løn i øre vil vise korrelation pga. forskel i måleenhed, hvorimod kovarians ikke vil afsløre denne samvarians.

Page 29: Forklaring af kvantitative og statistiske begreber til ... · Forklaring af begreb Andet lignende eller associeret begreb Eksempel Kritiske værdier / udfaldsrum Vær opmærksom på

Forklaring af begreb Andet lignende eller associeret begreb

Eksempel Kritiske værdier / udfaldsrum

Vær opmærksom på Udregnes som / formel

29

Korrelationskoefficient varierer ikke efter mål på sine tilknyttede variable i modsætning til kovarians. Kovarians, regression og χ2-test. Ω = -1;1

)(*)(

),(),(

YVXV

YXCovYX =ρ

Korrespondanceanalyse

Correspondence analysis, optimal scaling, dual scaling

Nonparametrisk statistisk metode til beregning af fordeling af flerdimensionelle kvalitative data. De mulige udfald omregnes til vektorer fra et fælles origo og danner derved en sky af punkter herom. I samme sky befinder sig simultant punkter for kategorier fra alle de anvendte variable. Sammenhænge mellem kategorier fra forskellige variable kan på den måde synliggøres gennem deres retning fra origo, dvs. hvilken kvadrant de ligger i. Bourdieu’s positioneringsteori er baseret på denne metode. Faktoranalyse, principal komponent analyse, clusteranalyse.

Kovarians Covariance Cov(X, Y) Den standardiserede samvarians mellem to variable.

∑∑i jx y

Anvendes ved kovarians til at fortælle at der

summes over alle kombinationer, som variablerne X og Y kan antage. Kovarians mellem to målinger af den samme indkomst, men i forskellig møntfod vil give en kovarians på 0 i modsætning til korrelationskoefficienten. Kovariansen varierer i størrelse ifht. Variablernes størrelse og enhed. Korrelationskoefficient som mål for samvariation har derimod ikke denne egenskab. Ω =0;∞ ∫ ∫ −−=−−=

X

YXYx dydxyxfyxYXEYXCov ),(*)(*)()](*)[(),( µµµµ

Eller:

YX

x y

YX dydxyxfyxYXEYXCov µµµµ *),(***)*(),( −

=−= ∫ ∫

Page 30: Forklaring af kvantitative og statistiske begreber til ... · Forklaring af begreb Andet lignende eller associeret begreb Eksempel Kritiske værdier / udfaldsrum Vær opmærksom på

Forklaring af begreb Andet lignende eller associeret begreb

Eksempel Kritiske værdier / udfaldsrum

Vær opmærksom på Udregnes som / formel

30

Kruskal-Wallis-test

Kruskal-Wallis-test

Envejs variansanalyse på nonparametriske data.

Kumuleret sandsynligheds-funktion

Cumulated probability

z funktion: F(x), Ф(z) (store phi)

Sandsynligheden for at Y vil antage en værdi mindre end y. Sandsynligheden for at slå hhv. 1, 2, … 6 med en terning, dvs. de adskilte sandsynligheder. Andelsfunktion Ω =0;1

∑≤

=≤=xx

i

i

xfxXPxF )()()(

Arealet under normalfordelingens kurve fra -∞ til y er udtryk for den kumulerede sandsynlighedsfunktion. Kvantilregression

Kvadrant Quadrant Et todimensionelt koordinatsystem opdeler via. akserne rummet i 4 kvadranter:

Kvalitative data Qualitative data

Nominelle variable, som ikke har et maksimum og et minimum. Variabel ”hvad har du i lommen?”: [lommeuld, mønter, nøgler, frikadeller] Dog kan binære kategorier med to udfald regnes som kvantitativt data, eksempelvis mand/kvinde-kategori, hvor ’kvinde’ er mere ’kvinde’ end mand.

Kvantil-regression

Quantile regression

Regressionsmetode, hvor man er interesseret i forhold gældende for normalfordelingens yderværdier, modsat simpel regression, hvor man er interesseret i forhold for normalfordelingens middelværdi i toppunktet. Her anvendes fraktiler (kvantiler) til at afgrænse yderværdierne. Eksempelvis q0,25 for en regression Yløn fader=αXløn

respondent+β. Ved at se på den nedre kvartil, q0,25,

2. kvadrant 1. kvadrant 3. kvadrant 4. kvadrant

Page 31: Forklaring af kvantitative og statistiske begreber til ... · Forklaring af begreb Andet lignende eller associeret begreb Eksempel Kritiske værdier / udfaldsrum Vær opmærksom på

Forklaring af begreb Andet lignende eller associeret begreb

Eksempel Kritiske værdier / udfaldsrum

Vær opmærksom på Udregnes som / formel

31

synliggøres den fjerdel af respondenterne, som har den laveste løn i forhold til deres faders løn. Dette er illustreret nedenfor markeret med rød stiplet linje. Løn fader Løn respondent

Kvantitative data Quantitative data

Data med numeratorer/tællere, som kan tælles. Normalt intervalskalerede eller ratioskalerede variable. Eksempelvis: Alder, indkomst.

Kritisk værdi Critical value k Kritiske værdier svarer til værdier på variablens fordeling på x-aksen, hvor signifikansniveauet α ligger som arealet afgrænset af den/de kritiske værdier under kurven. Fordelingen kan være eksempelvis en normalfordeling eller en χ-fordeling. Ved normalfordelingen adskiller den kritiske værdi et 2-delt areal yderst under kurven. Ved χ-fordeling adskiller den kun ét areal. Ved en enkeltsidet hypotese testet under en standardnormalfordeling med k=0,95 vil z = 1,6449

Latent klasse analyse, latent klasse model

Latent class analysis, latent class model

LCM Test som viser relationen mellem multivariate kategorielle data. Kan beskrives som faktoranalyse på kategorielle data. Her beskriver testen sandsynligheder, p, for at lande i forskellige ”klasser” i forhold til en kritisk G2-værdi (svarende til χ2). Faktoranalyse, latent profil analyse, multivariate mixture estimation, korrespondenceanalyse.

z k

Page 32: Forklaring af kvantitative og statistiske begreber til ... · Forklaring af begreb Andet lignende eller associeret begreb Eksempel Kritiske værdier / udfaldsrum Vær opmærksom på

Forklaring af begreb Andet lignende eller associeret begreb

Eksempel Kritiske værdier / udfaldsrum

Vær opmærksom på Udregnes som / formel

32

Likelihood-ratio Likelihood-ratio

Λ (lambda) Sammenligner to modellers likelihoods (normalt målt ved -2log-likelihood). Forskellen mellem de to størrelser er chi2-fordelt med forskelle i parametre mellem de modeller som antallet af frihedsgrader beskriver. Ratioen udtrykkes som den maksimale sandsynlighed af et resultat af to forskellige hypoteser. Tælleren udtrykker den maksimale sandsynlighed af et observeret resultat under nulhypotesen og nævneren beskriver den maksimale sandsynlighed af et observeret resultat under alternativ-hypotesen. Se Z-test, F-test og χ2-test. Ωα =0;∞

Likert skala Likert scale Rangordnet ordinal skala, som udtrykker holdning i kategorielle data. Meget enig, lidt enig, hverken enig eller uenig, lidt uenig meget uenig.

Lineær regression

Linear regression

OLS (Ordinary Linear Regression)

Udtrykker en ret linje som middelværdi, med hældningen β som udtryk for den samlede effekt af de tilknyttede uafhængige variable. Dette udregnes ud fra TSS. Man antager i hypotesen for en lineær fordeling, at forventningen til restleddene er nul, at der er varianshomogenitet, og at restleddene er ukorrelerede. Normalt antager man således, at restleddene er normalfordelte med forventning nul og en varians. En regressionslinie fastlægges med et konstantled (skæringen med y-aksen) og en eller flere regressionskoefficienter, som betegner effekten, dvs. lægger en linie gennem observationerne. Forklaringskraften betegnes R2. Sammenhæng mellem den afhængige variabel ’personlig formue’ afhængig af variable ’uddannelse’, ’alder’ og ’socialt netværk’.

Log multiplikativ social fluiditet

Log multiplicative social fluidity

LmSF Bruges til at udtrykke social arv: sammenhængen mellem de log multiplikative udtryk for et longitudinelt udtrykt udfald. Se også CnSF.

Log-likelihood Log-likelihood Man anvender normalt logaritmen til likelihooden for at få nogle værdier, der er nemmere at arbejde med. Hvis man endvidere ganger dem med (-2), fås Likelihood Ratio-testet, hvor der er nogle bekvemme fordelingsegenskaber i den forstand, at forskellen i -2Log-Likelihood er chi2-fordelt med forskellen mellem de to modellers parametre

Page 33: Forklaring af kvantitative og statistiske begreber til ... · Forklaring af begreb Andet lignende eller associeret begreb Eksempel Kritiske værdier / udfaldsrum Vær opmærksom på

Forklaring af begreb Andet lignende eller associeret begreb

Eksempel Kritiske værdier / udfaldsrum

Vær opmærksom på Udregnes som / formel

33

som antallet af frihedsgrader. Z-test, F-test, Pearson’s chi-square test og G-test udgør forskellige log-likelihood ratios. Ω =0;1

Logaritme Logarithm Den inverse funktion til eksponentialfunktionen. Se også ’Den naturlige logaritme’.

Logistisk regression

Logistic regression, logit multiple regression (lidt misvisende: ’linear logistic regression’)

Log En regression som udtrykker sammenhæng i et binært udfald. Den afhængige variabel er udtrykt ved en logit funktion. Logistisk regression modellerer på den vis en sandsynlighed for at ende i én kategori i forhold til ikke at gøre det. Modellen er en fordel, da den fordelingsmæssigt ligger mellem 0 og 1. Som i almindelig lineær regression kan man betinge sin afhængige variabel på en række forklarende variable. Der gælder dog nogle andre antagelser om restleddet. Hypotese: Tilbøjelig til at immigrere vs. Ikke tilbøjelig til at immigrere. Ved den logistiske regression vil logit modellen have et lineært udtryk (α+βx), mens udtrykket af regressionen vil være et tilnærmelsesvist binært udtryk: Y=Ln(X)[Logit]

odds

odds

e

eX

X

−=

−= +

+

11 βα

βα

π

Logit Logit Den naturlige logaritme af odds-ratioen.

Kan omregnes til probit, odds eller sandsynlighed.

)log(1

ln)( oddsp

ppLogit =

−=

1

0

β

Page 34: Forklaring af kvantitative og statistiske begreber til ... · Forklaring af begreb Andet lignende eller associeret begreb Eksempel Kritiske værdier / udfaldsrum Vær opmærksom på

Forklaring af begreb Andet lignende eller associeret begreb

Eksempel Kritiske værdier / udfaldsrum

Vær opmærksom på Udregnes som / formel

34

Longitudinel Longitudinal Komparativt studie over tid. Survey foretaget med de samme individer indgående i stikprøve for år 2000, 2002, 2004 og 2006. Survey foretaget i flere etaper over tid, hvor det ikke er samme individer som er adspurgt, gør ikke longitudinel analyse mulig.

Lorenz-kurve Lorenz-curve Se gini-koefficient

Lotteri-udvælgelse

Lottery-selection

Udvælgelsesmetode, som forudsætter fuldstændig tilfældig udvælgelse i en population. Bruges til stikprøveudvælgelse og ved instrumentmetode

MacNemar’s test MacNemar’s test

Simpel χ2-test, som anvendes longitudinelt ved en tabel med to søjler, som repræsenterer tid1 (før) og to rækker som repræsenterer tid2 (efter), for at se om de marginale frekvenser kan være de samme. Man ønsker at teste om der er kommet flere stofmisbrugere i København. Her sammenlignes mængden af stofmisbrugere og ikke-stofmisbrugere i stikprøven for populationen København før og efter.

Marginal sandsynlighed

Marginal probability

Sandsynligheden over eller under en vis værdi. Sandsynligheden for at have mere end 3 børn. Ω =0;1

Masse Mass Udtryk for samlet kategoriel udfaldsfordeling i en korrespondance.

Matrice Matrix Samling af data med matematiske individer, som har tilknyttet karakteristika. Kan illustreres i tabelform. Udtræk, paneldata.

Maksimal likelihood estimator

Maximum likelihood estimator

Søger at maksimere den netop beskrevne sandsynlighed gennem flere iterationer.

Matching Matching, nearest neighbor matching, Mahalanobis matching

Kausalitetstest, som gør brug af kontrafaktiske data, dvs. imaginære alternative udfald for hvert individ. Hvert individ tildeles en kontrafaktisk tilstand, udover den faktiske tilstand, som beregnes ud fra nearest neighbour-metode i den alternative kategori.

Page 35: Forklaring af kvantitative og statistiske begreber til ... · Forklaring af begreb Andet lignende eller associeret begreb Eksempel Kritiske værdier / udfaldsrum Vær opmærksom på

Forklaring af begreb Andet lignende eller associeret begreb

Eksempel Kritiske værdier / udfaldsrum

Vær opmærksom på Udregnes som / formel

35

At tage en videregående uddannelses eller ej: hvert individ med videregående uddannelse tildeles en kontrafaktisk fiktiv tilstand ud fra nærmeste match med den person af de individer som ikke har videregående uddannelse, som minder mest om denne person ud fra givne variable. SUTVA er en hovedantagelse i matching. Matching kræver desuden en spredning i de matchede kategorier, som giver mulighed for at finde lignende nearest neighbours.

Median Den værdi som adskiller fordelingen af udfaldene i to lige store mængder, 50% og 50%.

Medianen er en fraktil.

Middelværdi, modalværdi.

Mekanisme Mechanism Kausale forhold indeholder mekanismer. Kausale forhold kan forklare, at noget påvirker noget andet, men ikke hvorfor. Mekanismen forklarer årsags-virkning-forholdet. Der kan være et kausalt forhold mellem et barometers udsving og det efterfølgende vejrskifte, men det betyder ikke, at det er barometeret som forårsager vejrskiftet. Er tæt knyttet til kausalitet.

Meta-analyse Meta analysis Analyse af analyse.

Middelværdi, aritmetisk middelværdi, (gennemsnit)

Mean µ, (lille my), E(Y)

X

Simpelt gennemsnit. Middelværdi for alder i Danmark: µ = 76 år, E(Y) = 75 år. Modalværdi, median. Hvis både populationens og stikprøvens middelværdi

anvendes, vil E(Y) eller X beskrive stikprøvens middelværdi og µ beskrive populationens (den sande) middelværdi.

Mindste kvadraters metode

Ordinary least squares, sum of squared errors

OLS, SSE Den mindst mulige sum af de kvadrerede afvigelser fra en linje gennem udfaldene. For hver mulig x-værdi er der en middelværdi, og variansen antages at være normalfordelt omkring denne middelværdi. Måler variansen inden for de enkelte stikprøver. SSE = 0 ved samme afvigelsesstørrelser over den

Page 36: Forklaring af kvantitative og statistiske begreber til ... · Forklaring af begreb Andet lignende eller associeret begreb Eksempel Kritiske værdier / udfaldsrum Vær opmærksom på

Forklaring af begreb Andet lignende eller associeret begreb

Eksempel Kritiske værdier / udfaldsrum

Vær opmærksom på Udregnes som / formel

36

lineære middelværdi-linje.

Modalværdi, modus, typetal

Mode Den oftest forekommende værdi i populationen. I en diskret stokastisk variabel med udtrækningen 0, 1, 2, 2 vil modalværdien være 2. Modalværdien kan have flere udfald. Hvis der er flere udfald, så tages det midterste eller de to midterste. Hvis der er to midterværdier, tages gennemsnittet af de to midterste modalværdier. Det giver normalt bedst mening at tage modalværdi på en nominal variabel.

Monte Carlo eksperiment

Monte Carlo experiment

Computergenerering af tilfældige tal efter en given fordeling, given varians, middelværdi og antal observationer (eksempelvis normalfordeling). Se den centrale grænseværdisætning.

Multidimensionel krydstabel

Multiresponse table

Krydstabel, som viser mere end 2 dimensioner. Respond

entnr.

Køn National

itet

1 K DK 2 M N 3 K S 4 K DK

Burt-matrice

Multikollinearitet Multi collinearity

Ved multikollinearitet har flere uafhængige variable det samme beskrivende mål, og multikollinearitet mellem disse betyder, at den ene variabel som tilføjes regressionen ikke bibringer nogen ekstra forklaringskraft. Dog er samvarians ikke nødvendigvis ensbetydende med multikollinearitet. Dette kan f.eks. være tilfældet med holdningsspørgsmål, som formuleret forskelligt dybest set har samme beskrivende mål: eksempelvis: ’synes du der skal bruges flere midler til at hjælpe stofmisbruger?’, ’skal der afsættes mindre ressourcer til at afhjælpe narkomani’?.

Page 37: Forklaring af kvantitative og statistiske begreber til ... · Forklaring af begreb Andet lignende eller associeret begreb Eksempel Kritiske værdier / udfaldsrum Vær opmærksom på

Forklaring af begreb Andet lignende eller associeret begreb

Eksempel Kritiske værdier / udfaldsrum

Vær opmærksom på Udregnes som / formel

37

Læg mærke til at eksemplet beskriver forhold som er omvendt proportionale, men de kan på trods af dette skjule multikollinearitet. Endogenitet, spuriøsitet

Multinomialfordeling

Multinomial distribution

m Modsat en binomialfordeling har en multinomialfordeling flere end to mulige udfald. Hvad stemte du til sidste valg? (Y1, Y2,…,Ym)

Multinomialkoefficient

Multinomial coefficient

k

n

Sandsynligheden for at ramme en kombination af udfald. Sandsynligheden for først at slå en seks’er med en terning og derefter en et’er. Her er sandsynligheden dermed typisk meget lav. Ω =0;1

!*!*...!*

!,...,, 2121 mm kkk

n

kkk

n=

, hvor det gælder at

nkkk m =+++ ...21

Multiple regressioner

Multiple regressions

E(Y) En regression med mere end én uafhængig variabel.

213221102211 *),( xxxxxXxXYE ∗+∗+∗+=== ββββ

Multiple logistiske regressioner

Multiple logistic regressions

Logit En logistisk regression med mere end én uafhængig variabel. Logit værdien er ligmed logaritmen af udfaldenes odds.

Nearest neighbour

Nearest neighbour

Metode som anvendes ved matching-analyse til at finde det nærmeste lignende individ i alternativ-kategorien, for at skabe en kontrafaktisk tilstand.

Naturligt eksperiment, kvasi-eksperiment

Natural experiment, quasi-experiment

Naturlige eksperimenter er forekomster af vilkårlig tildeling af karakteristika, som har anvendelighed indenfor instrumentel regression. Udvælgelse til militærtjeneste via. session Barnets køn kan også stort set siges at være et naturligt eksperiment.

Page 38: Forklaring af kvantitative og statistiske begreber til ... · Forklaring af begreb Andet lignende eller associeret begreb Eksempel Kritiske værdier / udfaldsrum Vær opmærksom på

Forklaring af begreb Andet lignende eller associeret begreb

Eksempel Kritiske værdier / udfaldsrum

Vær opmærksom på Udregnes som / formel

38

Den naturlige logaritme

The natural logarithm

Ln(x), log(x)

ln er logaritmen med grundtallet e (en transcendental konstant med værdi ≈ 2.71828), for hvilken der gælder at ln(et)=t for alle reelle værdier af t. Den naturlige logaritme er dermed den inverse funktion af eksponentialfunktionen.

Negativ sammenhæng

Negative correlation

Se positiv sammenhæng

Nominel variabel Nominal variable

Se kategoriel variabel

Normalfordeling Normal distribution, Gaussian distribution, Laplace-Gauss distribution

Klokkeformet fordeling med toppunkt omkring en middelværdi, µ og med varians σ, som definerer hvor spids toppunktet er.

χ2-fordeling, se bellcurve. En normalfordeling har altid arealet 1 under kurven, men kan være høj eller flad afhængigt af variansen.

Nonparametrisk Nonparametric Se parametrisk

Nulhypotese Null

hypothesis H0 Hypotese hvor der siges at være signifikant forskellighed.

Hvis det f.eks. er to udfald/varianser/sandsynligheder som testes mod hinanden. Alternativhypotese.

µ

Page 39: Forklaring af kvantitative og statistiske begreber til ... · Forklaring af begreb Andet lignende eller associeret begreb Eksempel Kritiske værdier / udfaldsrum Vær opmærksom på

Forklaring af begreb Andet lignende eller associeret begreb

Eksempel Kritiske værdier / udfaldsrum

Vær opmærksom på Udregnes som / formel

39

Numerisk værdi Numeric z-value

z Den positive talværdi.

Hvis z=-1, så er x =1

Observeret værdi

Observed value

Den konkrete udfaldsværdi af en stikprøve. For personer med mellemlang uddannelse og høj indkomst observeres 58 individer i en stikprøve på 500. I en stikprøve skelnes mellem observeret og forventet værdi.

Odds Odds Forholdet mellem sandsynligheden for et udfald, p, og sandsynligheden for at udfaldet ikke forekom, 1-p. Givet sandsynligheden 0,82 for at opnå en sociologisk bachelor uddannelse for nystartede studerende, vil odds være givet ved 1 / (1 – 0,82) ≈ 5,555. Ω =0;∞ Odds = m / n, hvor m og angiver to sandsynligheder. Sandsynlighed kan omregnes til odds: p /(1-p).

Odds-ratio Odds-ratio, relative risk

OR, θ (lille theta)

Forholdet mellem odds. Odds-ratio forholdet mellem odds for at være single og bo i byen (0,2 / 1-0,2) vs. Odds for at være i parforhold og bo på landet (0,33 / 1-0,33) er 0,5726. Ω =0;∞ (p1 / 1-p1)/(p2 / 1-p2) Betinget sandsynlighed.

Operationali-sering

Operationali-zation

Når virkelige karakteristika forklares i form af målelige data. Når politisk deltagelse i en survey operationaliseres binært som ’deltagelse’ vs. ’ikke deltagelse’, eller en teori forsøges operationaliseret via. forklaringsbokse, såsom Richard Breen’s OED-figur:

O D

E

Page 40: Forklaring af kvantitative og statistiske begreber til ... · Forklaring af begreb Andet lignende eller associeret begreb Eksempel Kritiske værdier / udfaldsrum Vær opmærksom på

Forklaring af begreb Andet lignende eller associeret begreb

Eksempel Kritiske værdier / udfaldsrum

Vær opmærksom på Udregnes som / formel

40

O: Origin D: Destination E: Education Kausalitet, mekanisme, korrelation, samvarians

Ordinal variabel, ordnet variabel

Ordinal variable

Differentierbare kategorier, som kan rangordnes (undtaget binære variable). Likert-skala: meget enig, lidt enig, hverken enig eller uenig, lidt uenig meget uenig, eller intervalvariabel. Ordinal variabel.

Orico Orico Skæringspunkt mellem akserne i et koordinatsystem.

Outlier, afvigelse Outlier Et udfald som ligger langt væk fra spredningen af de resterende udfald. Hvis middelværdien for indkomst er 10.000 og variansen 2.000, så vil et udfald med indkomst ligmed 1.000.000 siges at være en outlier. Outliers kan med kritiske værdier testes for om deres forekomst er sandsynlig. Dermed kan outliers udtages af stikprøveudfald. Der kan manuelt udtages outliers som er logiske afvigelser, dvs. som eksempelvis kan skyldes tastefejl m.m. og derefter matematisk fravælges outliers som enkeltvis har stærk indflydelse på fordelingen. Matematisk fravælgelse sker ved at beregne om outliers ligger for langt fra µ under en given kritisk værdi.

Den optimale stikprøve-størrelse, bestemmelse af stikprøve-størrelse

Optimal sample size

*jn Udtryk for den optimale mulige stikprøvestørrelse

indenfor en given kritisk værdi for at stikprøven kan opnå repræsentativitet. Hvor stor skal stikprøven være af en population på 1.000.000, hvis den med 99% sandsynlighed skal være sand for denne population?

?

Page 41: Forklaring af kvantitative og statistiske begreber til ... · Forklaring af begreb Andet lignende eller associeret begreb Eksempel Kritiske værdier / udfaldsrum Vær opmærksom på

Forklaring af begreb Andet lignende eller associeret begreb

Eksempel Kritiske værdier / udfaldsrum

Vær opmærksom på Udregnes som / formel

41

Denne test forudsætter naturligvis ikke bortfald, hvilket derfor i forventet omfang skal medregnes.

Panel data Panel data Longitudinelle data, dvs. indsamlet over flere omgange i en tidsperiode. Der skelnes mellem balancerede og uafbalancerede data. I ubalancerede data er der lavet longitudinelle udtræk uden at samme respondent indgår i flere udtræk. I balancerede data er den samme respondent spurgt i hvert udtræk, hvilket muliggør analyse af situationelle forandringer. Residivanalyse i balancerede panel data på tidligere straffede personer via. hazard-funktion

Parameter, variabel

Parameter Ө (store theta), p

En parameter beskriver et forhold som gælder for selve populationen. Normalt antager man, at det er et parameter ”ude i virkeligheden”, der har genereret de data, der observeres. Derfor kan man også lave inferens tilbage til den tilknyttede population. Den sande middelværdi af indkomst i Danmark. Anvendes IKKE om stikprøven. Om stikprøven bruges derimod statistiske udtryk.

Parametrisk fordeling

Parametric distribution

En fordeling, hvor udfaldene har en kontinuert fordelingsform, eksempelvis normalfordeling. Modsat nonparametrisk fordeling, som har kategorielle data.

Parametriske tests

Parametric tests

Test på parametriske fordelte data: regression Regressioner Hvis nonparametriske ordinale data anvendes i parametriske tests, antages de at være parametriske. Dvs. i et udfaldsrum (meget enig, lidt enig, lidt uenig, meget uenig) antages der at være samme afstand mellem ”meget enig” og ”lidt enig”, som der er mellem ”lidt enig” og ”lidt uenig”. Nonparametriske data kan på den måde indgå i parametriske tests. Ønskes parametriske data derimod anvendt i nonparametriske tests, må de omkodes til kategorielle data, eksempelvis ”inkomst under 10.000” og ”inkomst på 10.000 og derover”. Modsat nonparametriske tests: korrespondance, χ2 m.m.

Partielt differentiale

Partial differential

Partielt differentiale, er differentialet mellem variable, når andre forhold fastlåses.

Page 42: Forklaring af kvantitative og statistiske begreber til ... · Forklaring af begreb Andet lignende eller associeret begreb Eksempel Kritiske værdier / udfaldsrum Vær opmærksom på

Forklaring af begreb Andet lignende eller associeret begreb

Eksempel Kritiske værdier / udfaldsrum

Vær opmærksom på Udregnes som / formel

42

Path-model Path-model Multipel regressionsanalyse anvendt på non-

eksperimentelle data, for at finde kausale forhold, hvor exogene variable fastlåses for at udelukke deres effekt, så påvirkning mellem endogene variable kan determineres. Er problematisk i samfundsvidenskabelig analyse, da den forudsætter at kende alle variable. I samfundsvidenskabelig analyse forventes der altid at være støj og forhold som ikke er med i de givne data, hvilket opsummeres i et restled, e.

Pearson korrelation

Pearson correlation

r Et standardiseret udtryk/beregning for samvariationen mellem to variable. Modsætning til β-værdien, som er afhængig af den afhængige og de uafhængige variablers enheder. Pearson korrelationen gør det dermed muligt at sammenligne forskellige regressioners udfald. Ωp =-1;1

φ (z) (lille phi)

Tæthedsfunktionen på den kumulerede sandsynlighedsfunktion

P-værdi P value P P-værdien er sandsynligheden for at observere en værdi af teststatistikken, som er mere ekstrem end den observerede værdi i retning af alternativhypotesen. P = 0,03 for at have været involveret i trafikuheld mere end 2 gange. Ωp =0;1 Sandsynlighed

Parentes Brackets ( ) Bruges til at beskrive specifikke udfald, hændelser. Udfald for 5 personers karakterbedømmelse: (4, 7, 7, 7, 10, 12). Ikke at forveksle med store parenteser [ ] og tuborgklammer .

Poissonfordeling Poisson distribution

Po En tilnærmelse til en fordeling, der angiver antal gange en hændelse indtræder i et stort antal forsøg, når sandsynligheden for hændelsen er (meget) lille, men konstant. Bruges typisk i forbindelse med ”sjældne hændelser” (fx flystyrt eller manddrab).

Page 43: Forklaring af kvantitative og statistiske begreber til ... · Forklaring af begreb Andet lignende eller associeret begreb Eksempel Kritiske værdier / udfaldsrum Vær opmærksom på

Forklaring af begreb Andet lignende eller associeret begreb

Eksempel Kritiske værdier / udfaldsrum

Vær opmærksom på Udregnes som / formel

43

Pooling Pooling Sammenkørsel: af sandsynligheder ved likelihood ratio og af datasæt, som indeholder samme variabel med forskellige mål, hvor man sørger for at udfaldet har et fælles mål. Datasæt: individerne i datasæt1 indeholder variabel ’arbejde’ en aktuel arbejdsstatus, kodet i ’faglært’, ’ufaglært’ og ’arbejdsløs’. Datasæt2 indeholder samme variabel, men kun kategorierne arbejdende og arbejdsløs. Disse data kan pooles, så en ny samlet variabel fremkommer med kategorierne ’arbejdende’ og ’arbejdsløs’, da både ’faglært’ og ’ufaglært’ kategoriseres som ’arbejdende’. Det kan også være tilfældet, at man ønsker at sammenligne amerikanske lønvilkår med danske, hvor disse hver især er opgivet i forskellig møntfod. Her mistes ikke data i modsætning til eksemplet med arbejdsstatus. Pooling mellem to eller flere datasæt kræver selvfølgelig at disse herudover er metodisk sammenlignelige.

Population Population, statistical universe

Samling af ”individer”, som udgør et hele af elementer. Personer i DK eller øjne på en terning. Populationer kan være virkelige populationer eller superpopulationer.

Positiv sammenhæng

Positive correlation

Sammenhænge mellem variable kan siges at være positive, hvis de stiger sammen og falder sammen, og siges omvendt at være negativt sammenhængende, hvis den ene falder mens den anden stiger. Sådanne forhold kan anskueliggøres med krydstabeller Der er positiv sammenhæng mellem løn og alder, hvis lavtlønnede har lav alder og højtlønnede har høj alder. Modsat negativ sammenhæng

Potens Potense X^n, Xn Opløftning af multiplikator i sig selv. X^2 = X2 X3 = X * X * X

X^2 må ikke forveksles med ∧X .

Primtegn, ”mærke”

Prime Anvendes ved afledte funktioner. Ved en funktion f(x) kan den afledte funktion kaldes f’(x) Er ikke det samme som apostrof og har ikke noget at

Page 44: Forklaring af kvantitative og statistiske begreber til ... · Forklaring af begreb Andet lignende eller associeret begreb Eksempel Kritiske værdier / udfaldsrum Vær opmærksom på

Forklaring af begreb Andet lignende eller associeret begreb

Eksempel Kritiske værdier / udfaldsrum

Vær opmærksom på Udregnes som / formel

44

gøre med primtal.

Principal komponent analyse

Principal component analysis, Karlhunen-Loève transform, Hotelling transform, proper orthogonal decomposition

Multivariat analyse, som angiver de valgte variables fordeling i et fælles 2- eller 3-dimensionelt rum med en principal komponent som hoveddimension. Metoden analyserer kategorielle data ved at lave en covarians analyse mellem variablene og angive de forskellige variable som ortogonale dimensioner i forhold til principal komponenten. Kan med fordel anvendes eksplorativt forud for den mere avancerede og nært associerede korrespondanceanalyse.

Probability-probability-plot, p-p plot

Probability-probability-plot (for normalfordelte distributioner: rankit eller normal probability plot)

(p, p)-plot Grafisk angivelse af en stokastisk variabels sorterede stikprøve vs. Empirisk fordelingsfunktion, hvor fordeling omkring en lige linje, ax+b, angiver goodness of fit. Man ønsker at se, om en stikprøves for en tilnærmelsesvist normalfordelt personvægt har samme fordeling som populationens.

Probit Probit, inverse cumulative distribution function, CDF

Φ(z) Et sandsynlighedsmål som probability, p, og logit med en anden fordeling. Kan derfor direkte omregnes til probability, logit eller odds-ratio. Probit-målet er hensigtsmæssigt pga. en (approksimativt) lineær udvikling i et q-q plot på en (approksimativ) normalfordeling, hvilket gør tydning af q-q-plottet nemmere. Ω =-4;4 Grafen viser probit på y-aksen og sandsynligheden på x-aksen:

Kilde: http://en.wikipedia.org/wiki/Image:Probit_plot.png

Page 45: Forklaring af kvantitative og statistiske begreber til ... · Forklaring af begreb Andet lignende eller associeret begreb Eksempel Kritiske værdier / udfaldsrum Vær opmærksom på

Forklaring af begreb Andet lignende eller associeret begreb

Eksempel Kritiske værdier / udfaldsrum

Vær opmærksom på Udregnes som / formel

45

)12(2)( 1 −= − perfpprobit

Erf-1 = Inverse error function

Ratiovariabel (forholds-variabel)

Ratio variable Kontinuert variabel med et naturligt nulpunkt. Kan indeholde alle naturlige positive tal eller negative tal, ikke begge dele. Højde (det giver ikke mening at have en negativ højde). Ω =∞;∞ Interval variabel

Raw data, CSV-data, TSV-data

Raw data Datafil, som ikke er tilknyttet et format fra et bestemt statistik program. En fil kan eksempelvis være komma- eller tabulator separeret i standard ASCII-format, så søjler og kolonner kan genkendes, ofte navngivet ”*.html”, ”.tsv” (tab seperated value), ”*.csv” (comma seperated value), ”*.raw” eller ”*.txt”. Dvs. ikke i standard Excel-, SPSS- eller SAS-format, men kan indlæses i alle programmer som tillader det pga. deres universelle karakter.

Redundans Redundance Overflødighed Ved anvendelse af to variable, som har samme beskrivende mål i en regressionsanalyse vil man udtage den ene pga. redundans. Hvis de derimod har stærk samvarians, men ikke beskriver samme forhold, er det ikke nødvendigt at udtage den ene. Multikollinearitet

Reference kategori

Reference category

I odds-ratios med flere mulige udfald refererer odds for de enkelte udfald til en referencekategori. Dvs. den gruppe som de andre odds sammenlignes med. Eksempelvis oddsratios for at købe en Volvo, en Mercedes, en Audi vs. Referencekategorien at købe en Porsche. I regressioner med kategorielle variable kan der ligge forskellige overvejelser i hvilken kategori der vælges som reference.

Rekodning Recoding Ændring af variabel til andre kategorier.

Page 46: Forklaring af kvantitative og statistiske begreber til ... · Forklaring af begreb Andet lignende eller associeret begreb Eksempel Kritiske værdier / udfaldsrum Vær opmærksom på

Forklaring af begreb Andet lignende eller associeret begreb

Eksempel Kritiske værdier / udfaldsrum

Vær opmærksom på Udregnes som / formel

46

Typisk omkodning til færre kategorier. Eksempelvis kan det være nødvendigt hvis man skal se udfald i én kategori i fht. Alle andre i en bernoullifordeling. Rekodning er forbundet med metodisk kritik, da det reducerer data. Rekodning til færre kategorier ændrer signifikansen i positiv retning markant.

Registerdata Population data

Data udtrukket for en hel population. Eksempelvis hele Danmark eller alle som har boet på herberg.

Regression Regression Udtryk for funktionen af en middelværdi af samvariationen mellem flere stokastiske variabler udtrykt lineært, GLM (General Linear Model) En lineær funktion, eller andengradsfunktion, som beskriver forholdet mellem flere variabler.

213221102211 *),( xxxxxXxXYE ∗+∗+∗+=== ββββ

Regressions-analyse

Regression analysis

Regressionen udtrykker en evne til at forudsige værdien af den afhængige variabel Y, ud fra nogle uafhængige forklarende variable.

Repræsenta-tivitet

Representa-tivity

Udsigelse om populationen på baggrund af stikprøve forudsætter repræsentativitet. Voxpop-interview (’manden på gaden’-undersøgelse), som ofte anvendes af journalister, er eksempelvis ikke repræsentativ. Signifikans-test

Residualer Residuals e, r Residualer angiver udsving fra least sum of squares- linien mellem afhængig og uafhængige variable ved en regression. MiddelværdiAlder= 40 år. ResidualværdiIP1 = bias minus middelværdi, 1000 år – 40 år = 960 år.

Residual^

YY −= (observeret – forventet værdi) Bias

Residualplot Residual plot x-y scatterplot af de standardiserede residualer på y-aksen i forhold til variablens udfald på x-aksen, som

Page 47: Forklaring af kvantitative og statistiske begreber til ... · Forklaring af begreb Andet lignende eller associeret begreb Eksempel Kritiske værdier / udfaldsrum Vær opmærksom på

Forklaring af begreb Andet lignende eller associeret begreb

Eksempel Kritiske værdier / udfaldsrum

Vær opmærksom på Udregnes som / formel

47

dermed angiver hvor meget de enkelte værdier svinger fra middelværdien. Residualerne ligger derfor fordelt omkring 0 på y-aksen. µ

Respondent Respondent Den som har udfyldt spørgsmålene i en survey. Ikke at forveksle med aktør, subjekt (teoretiske benævnelser) og interviewperson (typisk anvendt ved kvalitativ forskning).

RSS RSS, residual sum of squares

Residualernes, dvs. afvigelsernes kvadrerede sum fra en linje gennem udfaldene. Ωα =0;∞ Se Total Sum of Squares

Sand værdi True value Betegner forhold der gælder for populationen. Modsat estimater som gælder for stikprøven.

Sandsynlighed Probability, (likelihood)

P, p, SSH Chancen for et bestemt udfald givet et tilfældigt udtræk. Sandsynlighed ligger altid mellem 0 og 1: 10 ≤≤ P . Dermed er den samlede sandsynlighed P( Ω)=1. For sandsynligheden under en normalfordelt variabel ved en kritisk værdi, vil sandsynligheden beskrive arealet under kurven afgrænset af den kritiske værdi k. P = 0,34 Ωp =0;1

Sandsynligheds-fordeling

Probability distribution

Usikkerhed repræsenteres ved en sandsynlighedsfordeling. Hvad er det mest sandsynlige udfald, dvs. værdi eller udsnit af udfaldsrum. P(200;300)= 0,34

Sandsynligheds-funktion

Probability function

f(x) Summen af sandsynlighederne for alle de mulige udfald er pr. definition = 1.

Y

Page 48: Forklaring af kvantitative og statistiske begreber til ... · Forklaring af begreb Andet lignende eller associeret begreb Eksempel Kritiske værdier / udfaldsrum Vær opmærksom på

Forklaring af begreb Andet lignende eller associeret begreb

Eksempel Kritiske værdier / udfaldsrum

Vær opmærksom på Udregnes som / formel

48

1)(0 ≤≤ xf

Sandsynligheden for at respondenten er kvinde (0,3) + sandsynligheden for at respondenten er mand (0,7) = 1.

∑=

=+++=N

ini xxxxf

121 1...)(

Scatterplot, punktdiagram,

Scatterplot, scattergram

2-dimensionel diagramafbildning af udfald af parametriske variable. Hensigtsmæssig til afbildning af residualers afvigelse fra regressionens linje i en simpel lineær eller nonlineær regression med én uafhængig variabel.

Semikolon Semicolon ; Anvendes ved udfaldsrum med udfaldsspænd. Anvendes ved en nominel eller ordinal fordeling. Eksempelvis 0;7 anvendes ved alle udfald mellem 0 og 7.

Signifikans-niveau

Level of significance

α (lille alpha)

Signifikansniveauet er udenfor eller indenfor hvilke kritiske værdier der angives (khøj og klav). Α figurerer som to halvdele udenfor khøj og klav for en normalfordeling. Signifikansniveauet sættes I samfundsvidenskabelig analyse ofte til 5% (skrives 0,05), hvilket svarer til den kritiske værdi. Ωα =0;1

Signifikanstest Test of significance

En test for, hvor realistisk det er at begå en type-II fejl, dvs. at nulhypotesen fejlagtigt accepteres. Signifikanstesten er dermed også et udtryk for, hvor stærkt argumentet for hypotesen er. Eksempelvis omtales opinionsundersøgelser på baggrund af stikprøver typisk som repræsentative i pressen, men hvorvidt dette også er tilfældet kan testes med signifikanstest. Dette må dog ikke forveksles med signifikans. Signifikanstesten viser om det er realistisk indenfor et signifikansniveau, at forsøget taler sandt.

Sigmoid fordeling

Sigmoid distribution

Den fordeling som en logistisk funktion følger.

Simpel tilfældig Simple Beskriver at alle enheder i populationen har samme

Page 49: Forklaring af kvantitative og statistiske begreber til ... · Forklaring af begreb Andet lignende eller associeret begreb Eksempel Kritiske værdier / udfaldsrum Vær opmærksom på

Forklaring af begreb Andet lignende eller associeret begreb

Eksempel Kritiske værdier / udfaldsrum

Vær opmærksom på Udregnes som / formel

49

udvælgelse random selection

sandsynlighed for at blive udtrukket. Dette er normalt altid ønskeligt, da repræsentativitet forudsætter tilfældig udvælgelse. Kan eksempelvis foretages ved computerudvælgelse i CPR-registret.

Simpel regression

Simple regression

Regression, som betegner afhængighedsforholdet mellem én afhængig og én uafhængig variabel.

Simultan sandsynligheds-funktion

Simultaneous likelihood function

Sandsynligheden for flere specifikke udfald. At både første og andet slag med terningen bliver en etter. Betinget sandsynlighedsfunktion. Ω=0;1, typisk relativt små værdier – mindre end sandsynlighederne hver for sig.

Skyggetal Shadow figures

En stikprøve kan være biased pga. skyggetal, dvs. at der mangler rapportering af observationer. Eksempelvis ses skyggetal ofte i sammenhæng med kriminalitetsstatistik, hvor bl.a. rapportering af voldtægter regnes for at være stært biased. For nogle skyggetal anvendes særlige teknikker for at omgås skyggetallene, men disse er naturligvis også behæftet med betænkelighed.

Skøn på middelværdi

Estimated mean

E(X) Estimat for en populations middelværdi ud fra stikprøvens middelværdi. Hvis middelværdien kendes, bør denne naturligvis anvendes frem for et estimat.

∫∞

∞−

= dxxfxXE )(*)(

Spearman’s ρ (rho)

Spearman’s ρ (rho)

ρ Ordinalt mål for association. Hvis to variable er statistisk uafhængige, vil Spearman’s ρ antage værdien 0. Høje positive værdier viser høj positiv samvariation og høje negative værdier viser høj negativ samvariation. Ω=-∞;∞

Specifikke udfald Specifik occurrances

x, y En variabels specifikke udfald betegnes med små bogstaver.

Page 50: Forklaring af kvantitative og statistiske begreber til ... · Forklaring af begreb Andet lignende eller associeret begreb Eksempel Kritiske værdier / udfaldsrum Vær opmærksom på

Forklaring af begreb Andet lignende eller associeret begreb

Eksempel Kritiske værdier / udfaldsrum

Vær opmærksom på Udregnes som / formel

50

Eksempelvis x=1. X og Y angiver derimod en stokastisk variabels samlede udfald.

Spuriøs sammenhæng

Spurious association

Når to variable samvarierer uden en logisk/kausal forklaring. Dette skyldes enten ren tilfældighed eller at en tredje faktor påvirker begge variable. Samvarians mellem antal storke pr. år og antal børnefødsler.

Spænd Span Se udfaldsrum. Kan også bruges om et udsnit af et udfaldsrum.

Spredning Spread Se standardafvigelse

SSTR SSTR Mål for, hvor meget de enkelte stikprøvers gennemsnit afviger fra den samlede stikprøves gennemsnit. Ω=0;∞

Standard-afvigelse, spredning

Standard deviance

σ (lille sigma), s

Udtryk for afvigelse fra middelværdi. Opgjort i samme måleenhed som den stokastiske variabel, hvorpå den er udregnet. Kvadratroden af variansen. Varians

Ωσ =0;∞, sss == 2

(s skal angives som positivt tal, også kaldet den numeriske værdi)

2

1

^

)(1

1∑

=

−−

==n

ii xx

nsσ

rs = Der skelnes mellem populationens standardafvigelse, σ, og stikprøvens standardafvigelse, s.

Standardfejl Standard error Udtrykker hvor realistisk det er, at man har ramt en repræsentativ stikprøve i forhold til populationens karakteristika.

Standardiserede Standardized x-y plottet ved test for heteroskedasticitet kan ønskes

Page 51: Forklaring af kvantitative og statistiske begreber til ... · Forklaring af begreb Andet lignende eller associeret begreb Eksempel Kritiske værdier / udfaldsrum Vær opmærksom på

Forklaring af begreb Andet lignende eller associeret begreb

Eksempel Kritiske værdier / udfaldsrum

Vær opmærksom på Udregnes som / formel

51

residualer residuals udtrykt med residualerne som x = vægtet least squares. Se residualplot

Standardisering Standardi-

zation Ændrer en normalfordeling fra at have en middelværdi

forskellig fra 0 og en varians forskellig fra 1 til at have standardnormalfordelingens middelværdi 0 og variansen 1. Anvendes for at kunne udnytte standardnormalfordelingens beregningsværktøjer.

σ

µ−= YZ

Læg mærke til, at fordelingen både rykkes til at placere sig omkring 0 som middelværdi og samtidig ændrer spredning og dermed stejlhed. Både den standardiserede og den ikke-standardiserede normalfordeling har dog arealet = 1 under kurven.

Standardnormal-fordeling

Standard normal distribution

~N(0,1) Normalfordeling med middelværdi = 0 og varians = 1.

Statistisk uafhængighed

Statistical independence, stochastic independence

Operator som beskriver at to udfalds sandsynligheder ikke er afhængige af hinanden.

X ⊥ Y

Se også SUTVA

Statistisk korrelation

Statistical correlation

Undersøgelse der afdækker om der er sammenhæng

µ Z1-α

Page 52: Forklaring af kvantitative og statistiske begreber til ... · Forklaring af begreb Andet lignende eller associeret begreb Eksempel Kritiske værdier / udfaldsrum Vær opmærksom på

Forklaring af begreb Andet lignende eller associeret begreb

Eksempel Kritiske værdier / udfaldsrum

Vær opmærksom på Udregnes som / formel

52

mellem to variable, dvs. om variablene korrelerer. At en variabels udfald stiger i samme grad som en anden variabel i forhold til variablernes enhed. Man kan for eksempel forestille sig at respondentens skjortestørrelse og buksestørrelse korrelerer. Både negativ og positiv korrelation er udtryk for sammenhæng. Positiv korrelation udtrykker en stigning på den ene variabel med en stigning på den anden variabel. Negativ korrelation udtrykker et fald på den ene variabel med en stigning på den anden variabel.

Statistiske udtryk

Statistical expressions

Bruges om beskrivende mål på en stikprøve. Middelværdi, varians, sandsynlighed, odds. I modsætning til udtryk som beskriver populationen.

Stikprøve Sample Resultat af en udvælgelsesmekanisme, et udtræk af en population. En stikprøve er derfor forbundet med usikkerhed. De mulige udfald har sjældent samme sandsynlighed for at fremkomme.

Stikprøvegennemsnit

Sample average

X (”X-hat”) Stikprøvegennemsnit er en estimator for populationens middelværdi, µ.

Stikprøve-størrelse

Sample size Valg af stikprøvestørrelse anvendes for at regne ud hvor stor en stikprøve der er nødvendig, for at den kan blive repræsentativ for den tilhørende population. Hvor stor skal den tilfældige stikprøve være for at kunne repræsentere Danmark?

Stokastisk variabel

Stocastic variable, random variable

X, Y En stokastisk variabel er en funktion, som til ethvert udfald af et eksperiment forbinder en talværdi. Der skelnes mellem diskrete og kontinuerte variabler. Diskret stokastisk variabel: ternings udfald – man kan ikke slå 3,2. Kontinuert stokastisk variabel: indkomst. Eksempelvis på ikke-stokastisk variabel: kategoriel variabel, såsom bananer, æbler og pærer.

Strata Strata Ved stratifikation opdeles stikprøven i strata med flere forskellige karakteristika, for at opnå stærkere sammenligning. Udvælgelse ud fra alder i 3 strata: unge, voksne og

Page 53: Forklaring af kvantitative og statistiske begreber til ... · Forklaring af begreb Andet lignende eller associeret begreb Eksempel Kritiske værdier / udfaldsrum Vær opmærksom på

Forklaring af begreb Andet lignende eller associeret begreb

Eksempel Kritiske værdier / udfaldsrum

Vær opmærksom på Udregnes som / formel

53

gamle, hvor der testes for en anden egenskab, eksempelvis hvor mange timers fjernsyn man ser pr. uge i disse grupper. Klynge Strata skal indeholde mere end en variabel, så stikprøven kan opdeles i andre grupper end det, som testes.

Stratificeret stikprøve-gennemsnit

Stratified sample mean

)( STXE Anvendes for at styrke test. De enkelte strata ønskes uafhængige. 3 udtræk på 500 respondenter forskellige geografiske steder i populationen. Når man har indsamlet flere strata, så styrker dette estimatet på stikprøvegennemsnittet, når disse strata er uafhængige.

Stratifikation Stratification Forsøg på at opdele population i homogene grupper (strata), således at variansen af X i hvert stratum er lille. Der udvælges kun få strata, hvilket kræver homogenitet. Ved udtrækning af respondenter i Folkeregistret ønsker man eksempelvis normalt ikke at udvælgelsen sker med tilbagelægning. Stratifikation kan både være med og uden tilbagelægning.

Strukturelle ligningsmodeller

Structural modulation, structural ecuation models

SEM Regression med flere afhængige variable. Der antages endogenitet i uafhængige variable, hvilket gør almindelig multipel regression fejlbehæftet. Test for at se hvilken af flere afhængige variable, nogle uafhængige variable har mest indflydelse på.

Student’s t test

Se t-test

Styrke af test Test strength Z Se Z-test

Støj Se fejlled Sumtegn Sum of-sign

∑=

N

i

xf1

)( Anvendes ved summen af værdier som variablen kan antage. N betyder ’for den normalfordelte variabel’ og i=1 betyder at variansen er 1. Skrives også ~N(0,1) Se eksempelvis TSS.

Page 54: Forklaring af kvantitative og statistiske begreber til ... · Forklaring af begreb Andet lignende eller associeret begreb Eksempel Kritiske værdier / udfaldsrum Vær opmærksom på

Forklaring af begreb Andet lignende eller associeret begreb

Eksempel Kritiske værdier / udfaldsrum

Vær opmærksom på Udregnes som / formel

54

Sunflower-diagram

Sunflower-diagram

Grafisk geometrisk afbildning af nonparametrisk datamateriale på begge akser, hvor hvert muligt udfald angiver mængden af udfald. Uddannelsesniveau i 5 kategorier i forhold til indkomst i 3 kategorier.

Superpopulation Super population

Abstrakte populationer hvor mulige udfald er uendeligt. Indkomst, beboere i Danmark (der kan teoretisk være et uendeligt antal). Modsat virkelige populationer.

Survey Survey Kvantitativ stikprøveundersøgelse. Ved en survey anvendes som udgangspunkt statistiske værktøjer uden tilbagelægning. Se sociologisk databank.

SUTVA SUTVA, Stable Unit Treatment Value Assumption

Antagelse som gøres ved kausalitetstests. Det enkelte individs udfald må ikke være påvirket af udfaldet for andre individer. En persons motivation for at vælge en videregående uddannelse må ikke skyldes andre personers valg. I laboratorietests sikres SUTVA ved at lade individer være afsondret fra andre personer.

Søjlediagram Bar-chart Grafisk angivelse af udfald på en ordinal eller nominel variabel. Histogram

Test af forskel på to middelværdier

Mean difference test

Bruges til at teste om de to middelværdier med en kritisk værdi af sandsynlighed kan komme fra samme fordeling. Et ønske om at se om der er forskel på indkomst hvis man er gift og ikke gift, som har to forskellige middelværdier med hver deres fordeling. Ω=0;∞

2

22

1

21

2)(

n

S

n

S

XXZ

+

−=

Page 55: Forklaring af kvantitative og statistiske begreber til ... · Forklaring af begreb Andet lignende eller associeret begreb Eksempel Kritiske værdier / udfaldsrum Vær opmærksom på

Forklaring af begreb Andet lignende eller associeret begreb

Eksempel Kritiske værdier / udfaldsrum

Vær opmærksom på Udregnes som / formel

55

Tilhører Element of

Matematisk operator som fortæller hvilket udfaldsrum en variabel eller værdi tilhører. x ∈ -∞; ∞ ”x tilhører alle værdier mellem minus uendelig og uendelig”

Tilhører ikke Not element of

Matematisk operator som fortæller hvilket udfaldsrum en variabel eller værdi ikke tilhører.

Tilfældig stikprøve

Random sample

Tilfældighedsmekanismen er en essentiel forudsætning for at stikprøven kan blive repræsentativ. ’Den centrale grænseværdisætning’.

Total Sum of Squares

Total Sum of Squares

TSS TSS kan beskrive et mål for ESS (explained) og RSS (residual) i en lineær regressionsmodel eller WSS (within treatment) og BSS (between groups) i en ANOVA, dvs. den samlede summede værdi af alle udfald. Ω=0;∞ Regressionen udtrykker den mindst mulige værdi af værdierne kvadreret, så de kvadrerede værdiers samlede sum bliver mindst mulig. Regression: TSS = RSS + ESS, R2 = ESS / TSS ANOVA: TSS = WSS + BSS Nogle (de færreste) bruger RSS som forkortelse for ”Regression Sum of Squares” og ESS som forkortelse for ”Error Sum of Squares”, og de er således byttet rundt! Summen er dog naturligvis stadig den samme.

Totaltælling Total count, census

Ved totaltælling anvendes hele populationen for analyse. Alle hjemløse Registerdata indeholder oplysninger for hele populationer

RSS

ESS TSS

Page 56: Forklaring af kvantitative og statistiske begreber til ... · Forklaring af begreb Andet lignende eller associeret begreb Eksempel Kritiske værdier / udfaldsrum Vær opmærksom på

Forklaring af begreb Andet lignende eller associeret begreb

Eksempel Kritiske værdier / udfaldsrum

Vær opmærksom på Udregnes som / formel

56

modsat en stikprøve.

t-test t-test t Styrketest som foretages på forudgående statistisk test, som beskriver sandsynlighed for at have ramt resultatets værdi. En test af eksempelvis middelværdi fra en stikprøve ifht. Hvor sandsynligt det er at denne middelværdi er den rigtige, dvs. lig med populationens, med normalfordelte elementer og ukendt varians. Ω=0;∞ – dog sjældent over 70 I modsætning til Z-test, hvor variansen er kendt.

)1(~/2

0 −−= ntnS

Xt

µ under H0: µ=µ0

’Tuborgklammer’ Curly

brackets, braces

Bruges til at beskrive udfaldsrum.

Typefejl Type error (misvisende i forhold til anvendelser af alpha og beta bruges på engeslsk også Α-error og β-error)

Type I Type II Type III

Fortolkningsfejl på de kritiske værdier af en foretaget test. Type I-fejl: Hvis nulhypotesen er sand, men at den alligevel forkastes Type II-fejl: Hvis nulhypotesen er falsk, men at den alligevel accepteres Type III-fejl: Anvendes når nulhypotesen forkastes, men af de forkerte årsager.

Typetal Mode Se modalværdi

Uafhængig variabel

Independent variable, cause variable, explanatory variable, fixed variable, predicated variable, predictor, predictor variable, regressor

X Variable som søges at forklare en eller flere afhængige variable. I regressioner defineres nogle variable som uafhængige på trods af at disse meget sjældent reelt er uafhængige af andre forhold.

Udfald Occurrance K Det udførte udfald af et udfaldsrum. Fem terningekast: (4, 2, 6, 1, 3)

Page 57: Forklaring af kvantitative og statistiske begreber til ... · Forklaring af begreb Andet lignende eller associeret begreb Eksempel Kritiske værdier / udfaldsrum Vær opmærksom på

Forklaring af begreb Andet lignende eller associeret begreb

Eksempel Kritiske værdier / udfaldsrum

Vær opmærksom på Udregnes som / formel

57

Udeladt variabel bias

Omitted variable bias, OVB

Den skævhed som kan forekomme i en regression ved udeladte forklarende variable.

Udfaldsrum Event space, sample space, span, sample description space

N, Ω (store omega)

De mulige udfald. Ω=1, 2, 3, 4, 5, 6 for en terning. Alle lige værdier mellem 50 og 100: Ω =50, 52, 52 … 100 for en terning. Må ikke forveksles med hændelser, dvs. specifikke udfald, som er foretaget.

Umulig hændelse

Impossible occurrence

En hændelse/udfald som ikke kan lade sig gøre i det foretagne forsøg eller test. Er et væsentligt værktøj forhold til at være opmærksom på hvor test- og forsøgs resultat ikke kan godtages. En Bernoullifordeling, hvor X kun kan antage værdierne 0 og 1, så er 2 en umulig hændelse. χ2 kan ikke antage negative værdier. Derfor er χ2 = -0,3 en umulig hændelse.

Univariat analyse

Univariate analysis

Analyse, hvor der kun testes på én variabel. Varians, middelværdi mv. på enkelt variabel. Modsat multivariat analyse: Chi2, regression m.m. Univariate analyser udgør en type Anova.

Udtræk Extract Deduktiv metode, hvor man udtager en tilfældig stikprøve af en population. Udtræk af 1000 individer fra CPR-registreret.

Variabel, faktor Variable, factor

En variabel beskriver en parameter, som gælder for populationen.

Variabilitets-koefficient

Variability coefficient

Et procentmål for spredningen uden afhængighed af variablens enhed.

100×=X

sV

Varians Variance,

spread, dispersion

v(X), σ2 (lille sigma), Var

Udtryk for hvor meget en stokastisk variabel varierer fra sin middelværdi. Er givet ved den gennemsnitlige kvadrede afvigelse fra gennemsnittet.

Page 58: Forklaring af kvantitative og statistiske begreber til ... · Forklaring af begreb Andet lignende eller associeret begreb Eksempel Kritiske værdier / udfaldsrum Vær opmærksom på

Forklaring af begreb Andet lignende eller associeret begreb

Eksempel Kritiske værdier / udfaldsrum

Vær opmærksom på Udregnes som / formel

58

En varians i et forsøg med udfaldene (1, 2, 2, 2, 4, 5, 6) har variansen σ2

= 3,47619.

Standardafvigelse Ω=0;∞ 22 ))](([)( σ=−= XEXEXV

Eller 2222 )())(()()( µ−=−= XEXEXEXV

Varians af stikprøvegennemsnit

Sample mean variance

)(XV Udtryk for hvor meget gennemsnittet for de mulige udfald varierer. Se homo-/heteroskedasticitet. Ω=0;∞

n

XV2

)(σ=

Variansestimator Variance

estimator S2 En variansestimator giver et skøn på variansen af den

virkelige population ud fra kendskab til stikprøven. Her tager man højde for tabet af en frihedsgrad og deler med n-1 frem for n.

Varigheds-analyse

Duration analysis

Empirisk longitudinel regressionsanalyse, som beskæftiger sig med hvor længe en gruppe forbliver i en given tilstand. Se hazard-test

Virkelig population

Real population

Population med afgrænset mulige udfald. Om en virkelig population kan man derfor også udsige en andelsfunktion, dvs. at noget udgør en andel af populationen. Øjne på en terning, opnået klassetrin i folkeskolen eller ugedag. Modsat superpopulationer.

Vægtede data Weighed data Matrice hvor individer omregnes med en konstantværdi på grund af anderledes fordeling end i den virkelige population, for at opnå samme fordeling som den virkelige. Ofte er kønsfordelingen skæv pga. at kvinder oftere er til stede i hjemmet og derfor har mulighed for at besvare en surveyundersøgelse. Man lader et statistikprogram vægte

Page 59: Forklaring af kvantitative og statistiske begreber til ... · Forklaring af begreb Andet lignende eller associeret begreb Eksempel Kritiske værdier / udfaldsrum Vær opmærksom på

Forklaring af begreb Andet lignende eller associeret begreb

Eksempel Kritiske værdier / udfaldsrum

Vær opmærksom på Udregnes som / formel

59

fordelingen, så fordelingen bliver 50/50, hvis dette altså er den virkelige populations fordeling. Den skæve kønsfordeling forbliver altså således den samme, men der tages højde for det i de tests som foretages. Gennemsnitskarakter på sociologiuddannelsen er eksempelvis vægtet i forhold til hvor mange ECTS faget giver.

Vægtet euklidisk afstand

Weighted euclid distance

I korrespondanceanalyse er de enkelte punkter fordelt med en χ2-afstand (i modsætning til en normal parametrisk afstand) fra origo når deres forskellige masse medregnes. Punkternes gensidige afstand beregnes derfor ved euklidiske afstande vægtet i forhold til χ2.

Wald-test Wald-test Simpel korrelationstest, som antager at standardafvigelsen er kendt, og som afhænger af variablens fordeling. Likelihood ratio er derfor at foretrække frem for Wald-testen.

Wilcoxon-test, Mann-Whitney-test, U-test

Wilcoxon-test, Mann-Whitney-test, U-test

WMW, MWW

Anvender samme metode som t-test, hvor de nonparametriske kategorier ordnes.

WSS WSS WSS Den uforklarede del af TSS. Hvis denne er høj i forhold til WSS, betyder det lille afvigelse mellem de sammenlignede variable i testen. TSS, BSS, Anova.

Z-test Z-test Z Styrketest, som tester sandsynligheden for at forkaste H0, givet at H0 er falsk. Fortæller om testens evne til at forkaste H0. I modsætning til T-test, hvor variansen er ukendt. Ω=0;∞