Kapitel 12. Virkningsevaluering (Thomas Bredgaard, Julia ... · 1 Under udgivelse i T. Bredgaard, red. ”Evaluering af offentlig politik og organisationer”, Hans Reitzels forlag

1

Under udgivelse i T. Bredgaard, red. ”Evaluering af offentlig politik og organisationer”, Hans

Reitzels forlag (udkommer primo 2016)

Kapitel 12. Virkningsevaluering (Thomas Bredgaard, Julia Salado-Rasmussen og Stella Mia Sieling-Monas)

Kært barn har mange navne: Virkningsevaluering, realistisk evaluering, teori-baseret evaluering og

virkelighedsnær evaluering. Værktøjet til at foretage denne form for evaluering har ligeledes

forskellige betegnelser: Programteorier, logiske modeller, interventionsteorier, indsatsteorier og

forandringsteorier. I det følgende benytter vi betegnelserne virkningsevaluering og

programteorier, som er de mest anvendte begreber, navnlig i den danske evalueringslitteratur.

Virkningsevaluering blev introduceret på socialområdet i danske lærebøger i 2000ernes

begyndelse (jf. Dahler-Larsen & Krogstrup, 2003; Krogstrup, 2003) og har siden spredt sig og

anvendes nu på mange forskellige politikområder. Den danske version af virkningsevaluering

bygger på ældre udenlandske evalueringstraditioner, særlig teori-baseret evaluering og realistisk

evaluering (jf. Schuman, 1967; Wholey, 1987; Chen, 1990; Rogers, 2000; Pawson & Tilley 1997;

Pawson, 2013).

Formålet med en virkningsevaluering er at undersøge og dokumentere, hvad der virker for hvem,

under hvilke omstændigheder. Virkningsevalueringer tilstræber, at åbne indsatsers (politikkers,

interventioners eller programmers) ”sorte boks” og ikke blot undersøge om indsatser virker, men

også hvorfor og hvordan de virker. Ambitionen er at koble viden om indsatser og processer

sammen med viden om resultater og effekter. Det er en ambition, der går på tværs af den

faseopdeling af evalueringsmodellerne vi har anvendt i bogens tidligere kapitler.

Men er det overhovedet nødvendigt at åbne indsatsers ”sorte boks”? Er det ikke tilstrækkeligt, at

vi undersøger om indsatser virker efter hensigten og har opnået de forventede resultater og

effekter? Vi kender fx argumentet om, at kunden er ligeglad med hvordan bilen er produceret, så

længe den kører godt. I offentlig politik og administration forholder det sig imidlertid anderledes.

Her er tilblivelsen af ”produktet” sjældent ligegyldig. Offentlige indsatser har ”indre værdi”, hvilket

indebærer at måden, hvorpå målet opnås (processen) ofte er af lige så stor betydning som,

hvorvidt målet er nået (effekten). De færreste forældre vil fx acceptere, at en skolelærer anvender

fysisk afstraffelse af eleverne, og nøjes med, at interessere sig for elevernes præstationer ved

eksamen i matematik og dansk. Det andet argument for at åbne den ”sorte boks” er, at

forbedringer og revisioner af programmer og politikker er et væsentligt formål med evaluering,

hvilket som regel ikke er muligt med mindre der gennemføres evaluering af hvorfor og hvordan

programmet fungerer (jf. Chen, 1994). Virkningsevaluering har derfor til formål:

2

”At undersøge betingelserne for programmers implementering og de mekanismer som

forbinder processer og effekter som middel til at forstå hvornår og hvordan

programmer virker” (Weiss 2007: 68).

Vi starter med at beskrive virkningsevalueringens teoretiske baggrund og udvikling. Derefter

diskuteres, hvorvidt virkningsevaluering er i stand til at indfri ambitionen om, at bygge bro mellem

procesevaluering og effektevaluering. Vi bruger derefter lidt ekstra kræfter på at præsentere

”realistisk evaluering”, som efter vores vurdering er det hidtil mest overbevisende bud på en solid

teoretisk og metodisk tilgang til virkningsevaluering. Herefter giver vi forslag til hvordan

programteorier kan konstrueres og testes. Kapitlet afsluttes med at skitsere nogle af de

væsentligste udfordringer, som karakteriserer virkningsevaluering.

Virkningsevalueringens rødder og udvikling

Virkningsevaluering er blevet den foretrukne danske betegnelse for den type evaluering, som

anvender program- eller forandringsteorier til at undersøge, hvad der virker for hvem, under

hvilke omstændigheder. Virkningsevaluering udspringer af ”teori-baseret evaluering” og ”realistisk

evaluering” fra den engelsksprogede litteratur. Carol Weiss (2007) nævner, at begrebet ”teori-

baseret evaluering” opstod blandt evalueringsforskere i begyndelsen af 1990erne. Men selve

ideen om at anvende ”programteorier” til at forstå hvorfor og hvordan programmer virker, er

endnu ældre. I det følgende tager vi på en kort rundtur i virkningsevalueringens fortid og nutid.1

En af de første til eksplicit at anvende begrebet ”programteori” var Edward Schuman (1967), som

diskuterede to årsager til at programmer mislykkedes: (1) Implementeringsfejl og (2) teorifejl.

Implementeringsfejl betegner en manglende evne til at gennemføre de intenderede aktiviteter i

programmet, imens teorifejl betegner aktiviteternes manglende evne til at medføre de ønskede

effekter. Vi vender tilbage til denne vigtige sondring senere.

I 1972 argumenterede Carol Weiss som den første for, at evalueringer skulle bygge på

programteorier. Weiss anskueliggjorde det i forhold til forskellige teorier indbygget i et program

for læreres hjemmebesøg.

Siden fulgte Joe Wholey’s (1987) arbejde med ”evaluerbarhed” (evaluability assessment) som

understregede behovet for at undersøge, hvorvidt et programs underliggende teori gav mening.

Wholeys idé var at man forud for den egentlige evaluering foretog en vurdering af hvorvidt det

logiske ræsonnement som forbinder programmers input med output er meningsfuldt, samt om

det er sandsynligt at målene kan realiseres.

1 Referencerne til de forskellige bidrag i litteraturen om ”teori-baseret evaluering” og programteori kan

findes i Carol Weiss oversigtsartikel fra 2007 (Weiss, 2007). Sue C. Funnell & Patricia J. Rogers har en næsten tilsvarende gennemgang af programteoriers idehistorie (jf. Funnell & Rogers, 2011: 16ff.).

3

I slutningen af 1980erne var ”teori-baseret evaluering” efterhånden blevet en ganske populær ide,

omend der fortsat ikke var så mange praktiske eksempler på anvendelsen af tilgangen. Der var i

perioden en kraftigt akademisk opblomstring af diskussionerne om ”teori-baseret evaluering” og

programteori. Eksempelvis udkom der i hhv. 1987 og 1990 temanumre af tidsskriftet ”New

Directions for Program Evaluations” som var tilegnet diskussionen af ”teori-baseret evaluering” og

programteori. I år 2000 fulgte et tredje temanummer af tidsskriftet som var tilegnet diskussionen

om programteorier i evaluering (jf. Rogers m.fl., 2000).

Huey-Tsuh Chen og Peter Rossi videreudviklede ideerne i en række publikationer i 1980erne og

begyndelsen af 1990’erne. Deres bidrag var især at påpege, at programteori skulle indeholde

samfundsvidenskabelig teori og ikke blot en række logiske ræsonnementer. Chen skelnede

eksempelvis mellem ”normativ teori” og ”kausalteori”, hvor førstenævnte giver vejledning om

hvilke mål og resultater som bør forfølges eller undersøges, imens sidstnævnte er antagelserne

om hvorvidt og hvordan programmet virker. De fleste evaluatorer som anvender

virkningsevaluering og programteori benytter kausalteori, nærmere bestemt den såkaldte

”generative kausalteori” (jf. senere afsnit om kausalitet i virkningsevaluering).

I slutningen af 1990erne kommer et markant bidrag til teoriudviklingen med Ray Pawsons og Nick

Tilleys bog om ”realistisk evaluering”, der præsenterer et solidt videnskabsteoretisk og

evalueringsteoretisk alternativ til eksperimentelle evalueringsmetoder (Pawson & Tilley, 1997).

Ray Pawson arbejder efterfølgende videre med begreberne og introducerer den ”realistiske

syntese” som alternative til ”systematiske forskningsoversigter” (Pawson, 2006) og har senest

udfoldet (realistisk) evaluering som en selvstændig form for anvendt videnskab (Pawson, 2013). Vi

beskriver realistisk evaluering mere udførligt nedenfor.

Det seneste årti har ifølge Weiss (2007: 70) handlet om at anvende og praktisere ”teori-baseret

evaluering”. Begreberne er efterhånden blevet ”mainstream” indenfor evaluering og er inkluderet

i de fleste nyere tekstbøger om evaluering (jf. fx Rossi, Freeman & Lipsey, 1999; Vedung, 2009;

Dahler-Larsen, 2013). Ray Pawson nævner i sin nyeste bog, at han har fundet mere end 100

videnskabelige studier, som hævder, at være realistiske evalueringer (Pawson, 2013: 13). Dertil

kommer evalueringer som bruger andre betegnelser som ”teori-baseret evaluering”,

programteorievaluering osv.

I Danmark blev evalueringstraditionen præsenteret i begyndelsen af 2000-tallet og fik som nævnt

samlebetegnelsen ”virkningsevaluering” (jf. Dahler-Larsen & Krogstrup, 2003). Den danske udgave

af virkningsevaluering blev udviklet og afprøvet i forbindelse med et projekt om udvikling af

evalueringsmodeller under Socialministeriets evalueringsprogram i perioden 2001-2003. Selve

betegnelsen virkningsevaluering understreger dels ”at virke” (proces) og ”virkning” (effekten) og

udtrykker således bestræbelsen på at bygge bro mellem processer og effekter (jf. Dahler-Larsen &

Krogstrup, 2003). I et senere værk forklarer Peter Dahler-Larsen hvordan den nye betegnelse

”virkningsevaluering” samtidig gav ham mulighed for at udvikle evalueringsmodellen i andre

4

retninger end den gængse indenfor ”teori-baseret” evaluering (Dahler-Larsen, 2013: 115). Dahler-

Larsen ønskede nemlig, at kombinere virkningsevaluering med konstruktivisme i stedet for med

kritisk realisme.

Den store interesse for virkningsevaluering har efterhånden skabt en stor variation og

mangfoldighed – nogle vil måske kalde det forvirring - i de anvendte betegnelser samt i måden

hvorpå programteorier repræsenteres og anvendes (jf. Funnell & Rogers, 2011: 23).

Virkningsevalueringens popularitet kommer også til udtryk ved, at organisationer og

bevillingsgivere ligefrem er begyndt at forlange, at forslag til programmer, projekter eller politikker

skal indeholde en logisk model eller programteori før påbegyndelse. Programteorier anvendes

med andre ord til både planlægning, styring og evaluering af projekter (jf. Rogers, 2007).

Virkningsevaluering som brobygger

Det er ikke så svært at forstå virkningsevalueringens popularitet, idet den tilstræber af forene det

bedste fra begge verdener. Virkningsevaluering søger at integrere procesevaluering og

effektevaluering og at kombinere kvalitative og kvantitative metoder. Dog adskiller

virkningsevaluering sig også fra både procesevaluering og effektevaluering, hvilket vi skal se i det

følgende. Vi har skitseret de væsentligste forskelle mellem de tre evalueringstilgange nedenfor.

5

Tabel 12.1. Virkningsevaluering som brobygger

Effektevaluering Virkningsevaluering Procesevaluering

Undersøgelses-

spørgsmål

Virker det? Hvad virker for hvem,

hvorfor, under hvilke

omstændigheder?

Hvordan opleves og

opfattes virkningerne?

Fokus Effekter Effekt og proces Processer

Metode Kvantitative metoder Multi-metodologisk:

Anvender både

kvantitative og

kvalitative metoder

Kvalitative metoder

Teori om

forbindelse mellem

indsats og effekt

Successionistisk

kausalteori

Generativ kausalteori Logisk teori

Viden Kontekstuafhængig

Global viden

Kontekstafhængig, men

overførbar viden

Kontekstafhængig

Lokal viden

Beslutningsproces Antager at

beslutningstagere

foretager rationelle

valg mellem de mest

effektive midler til at

opnå mål

Evaluator søger at

informere praktikere,

deltagere og

beslutningstagere samt

udvikle deres

programteorier

Evaluator vægter

lydhørhed overfor de

berørte interesser og at

informere

beslutningstagere om

hvordan interventioner

opleves og anvendes

Kilde: Udvirket med inspiration fra Pawson & Tilley (1997: kapitel 1).

Formålet med en effektevaluering er at undersøge om en given indsats, intervention eller program

virker eller ikke virker (jf. kapitel 10). Effektevalueringer stammer fra den eksperimentelle

tradition, som søger kontekstuafhængig og universel viden (evidens) gennem kontrollerede forsøg

af interventioners og programmers effekter (jf. også kapitel 3). Traditionen opstod i USA i

efterkrigstiden, hvor der var en stor styringsoptimisme ift. at løse grundlæggende

samfundsproblemer gennem videnskabelige metoder og rationelle beslutningsprocesser (f.eks.

illustreret ved Lyndon B. Johnsons forestillinger om ”The Great Society” og erklæringer om ”War

on Poverty) (jf. Albæk, 1988). Politik blev i den forstand en slags ”social ingeniørkunst” (jf. Vedung,

2010 og kapitel 2). Eksperimentel evaluering bygger på såkaldt ”successionistisk kausalteori”, dvs.

forsøg på at ekskludere enhver tænkelig kausal agent fra eksperimentet bortset fra

interventionen, således at der til sidst blot er en sikker (evident og automatisk) kausal forbindelse

mellem indsats og effekt tilbage. Ambitionen er at opnå kontekstuafhængig og global viden om

hvorvidt interventioner virker eller ikke virker, for derefter at kunne informere beslutningstagere

om hvilke interventioner som virker bedst og mest effektivt. Beslutningstagere antages for sin del

at agere rationelt og benytte de mest effektive og virksomme indsatser, imens ikke-virksomme

6

eller ineffektive indsatser bør nedlægges. Dette er ligeledes essensen i den ”evidensbevægelse”,

som igennem en årrække er skyllet ind over de fleste vestlige lande (jf. Vedung i kapitel 2 og

Krogstrup og Baadsgaard i kapitel 3).

Kritikere fremhæver dog, at ”evidensbevægelsen” og især randomiserede kontrollerede forsøg

(RCT) har vanskeligt ved at indfri løfterne om universel og sikker viden. Kritikere fremhæver, at

eksperimentelle design ikke kan favne komplekse interventioner og at metoden dermed giver

forsimplede løsninger på problemstillinger, som ikke kan forstås løsrevet fra kontekst (jf. Dahler-

Larsen & Krogstrup, 2003; Dahler-Larsen, 2013). Eksperimentelle evalueringer har samtidig

vanskeligt ved at adressere spørgsmålet om, hvorfor og hvordan interventioner virker og har

sjældent produceret konsistente resultater (jf. Pawson & Tilley, 1997: kapitel 2). Det gør det

vanskeligt for politiske beslutningstagere, at omsætte evalueringsresultaterne til praktisk politik og

beslutninger. Dertil kommer at ”evidensbevægelsen” undervurderer beslutningsprocessers

grundlæggende politiske natur (jf. Foss Hansen i kapitel 4 og Dahler-Larsen i kapitel 14), hvilket

indebærer at selv når evidensen for et givent tiltag er entydig kan der være gode politiske grunde

at handle anderledes (fx kompromisser, studehandler, værdier, holdninger osv.).

Procesevalueringer adresserer nogle af begrænsningerne ved effektevaluering (jf. kapitel 7 af

Rasmussen og Rasmussen). Vi bruger her ”procesevaluering” som en samlebetegnelse for de

forskellige evalueringstilgange, der interesserer sig for indsatsers aktiviteter, processer og

implementering (fx responsiv evaluering, interessentevaluering, kompetenceevaluering,

empowermentevaluering, brugerevaluering og implementeringsevaluering, jf. ligeledes kapitel 8

og 9). Et væsentligt formål med disse evalueringsformer er at opnå en dybere indlevelse i

interventionernes karakter samt deltagernes, praktikernes og beslutningstagernes oplevelser,

vurderinger og erfaringer. Der sker således en naturlig forskydning fra det kvantitative studie af

effekter til det kvalitative studie af processer. Procesevaluering søger ikke efter årsagsforklaringer

på om interventioner virker, men interesserer sig for hvordan de virker og opleves at virke af

deltagere, brugere, medarbejdere og andre interessenter. Der anvendes således ikke kausalteori

som i effekt- og virkningsevaluering, men ”logisk teori” som ud fra deltagernes/brugernes

perspektiv undersøger indsatsernes konsekvenser. Evalueringsresultaterne kan derefter anvendes

til at informere beslutningstagere om hvordan ”berørte interessenter” oplever programmers og

interventioners virkninger. Procesevalueringer er ikke nødvendigvis eksplicit ”teori-drevne” og

søger ikke nødvendigvis at generalisere evalueringsresultaterne udover den specifikke kontekst,

hvori de er opstået.2

2 Der kan udover virkningsevaluering også identificeres andre evalueringspositioner imellem effektevaluering og procesevaluering. Pawson og Tilley (1997: kapitel 1) har eksempelvis ”eksperimentel evaluering” og ”konstruktivistisk/naturalistisk evaluering” i hver sin ende af skalaen (tilsvarende det vi benævner ”effektevaluering” og ”procesevaluering”). I mellem disse placerer Pawson og Tilley den ”pragmatiske/politiske evaluering” og den ”pluralistiske” tilgang (Pawson & Tilley 1997: kapitel 1).

7

Virkningsevaluering kan opfattes som en brobygger mellem effektevaluering og procesevaluering.

For at besvare det grundlæggende spørgsmål i en virkningsevaluering om, hvad der virker for

hvem, under hvilke omstændigheder skal der fokuseres på både effekter og processer og

anvendes både kvantitative og kvalitative metoder. Målet med en virkningsevaluering er i sidste

ende at udvikle bedre og mere evidensbaserede programteorier (meso-teorier) med henblik på at

kvalificere beslutningsgrundlag og praksis.

Virkningsevaluering kan være et supplement til effektevaluering i de situationer, hvor man ønsker

at undersøge hvorfor og hvordan effekterne opstod. Men virkningsevaluering kan også være et

alternativ til effektevaluering. Som en særlig aftapning af virkningsevaluering er den form for

evaluering vi beskriver i det følgende, den realistiske evaluering, hovedsageligt, men ikke

udelukkende, ment som en kritik af den eksperimentelle evalueringstradition, der anvender

randomiserede kontrollerede forsøg.

Realistisk evaluering

Realistisk evaluering er som nævnt udviklet af Ray Pawson og Nick Tilley og er formuleret som et

opgør med og alternativ til eksperimentelle evalueringsmodeller (Pawson & Tilley, 1997). Den

realistiske evaluering har et solidt videnskabsteoretisk fundament i ”kritisk realisme”.3 Det

grundlæggende spørgsmål som undersøges i en realistisk evaluering er, hvad der virker for hvem,

under hvilke omstændigheder.

Formålet med realistiske evalueringer er at konstruere, teste og forfine programteorier. Disse

programteorier er forestillinger om forbindelser mellem årsag og virkning, som identificeres

gennem såkaldte CMO-konfigurationer:

Context (C) + Mechanism (M) = Outcome (O).

Indsatser virker (dvs. har succesfulde outcomes) når de introducerer de rette ideer og muligheder

(mekanismer) til grupper eller personer under de rette sociale og kulturelle omstændigheder

(kontekst) (Pawson & Tilley 1997: 57). I det følgende præciseres, hvad der forstås ved

nøglebegreberne: Mekanismer, kontekst og outcomes. Desuden tilføjer vi begrebet moderator,

introduceret af Peter Dahler-Larsen (2001).

3 Som videnskabsteori indtager realisme en position imellem ”positivisme” og ”relativisme/fænomenologi”. Realismen søger i modsætning til positivismen, at finde ”generative mekanismer” frem for ”kausale mekanismer”. Det antages i modsætning til relativismen, at ”virkeligheden” er observerbar og ikke blot består af ”sociale konstruktioner”. I Ray Pawsons seneste bog er der en detaljeret indføring i den realistiske evaluerings filosofiske, epimistologiske og metodologiske rødder (jf. Pawson, 2013: kapitel 1).

8

Hvad er mekanismer? For at forstå hvordan programmer virker, må vi undersøge de

underliggende mekanismer, som forbinder indsats og effekt, dvs. de indre forhold som virker

under den observerbare overflade. Mekanismer er ofte skjulte eller latente ”agenter” som skaber

forandring. Det er gennem ideen om disse mekanismer, at man kan tage skridtet fra at spørge om

et program virker, til at forstå hvad det er ved et program som får det til at virke. Pawson og Tilley

(1997: 65) bruger et eksempel med et ur. Vi bliver ikke i stand til at forstå hvordan et ur virker ved

at studere urets overflade og visernes bevægelser. Vi må skille det ad og undersøge hvad der sker

under overfladen i selve urværket. Mekanismer virker på samme måde under den synlige

overflade og kan ikke ses med det blotte øje. Mekanismen er ifølge Pawson og Tilley en

regularitet, altså forklaringen eller hypotesen om, hvorvidt og hvorfor der er forbindelse mellem

indsats og effekt. Astbury og Leeuw (2010) fremhæver følgende kendetegn ved en mekanisme: (1)

de er ofte skjulte, (2) de er følsomme overfor variationer i konteksten og (3) de skaber (genererer)

effekter (outcomes). I Pawson (2013: kapitel 6 og 7) er der flere eksempler på hvordan både

sociale programmer og kliniske interventioner ved hjælp af disse ”usynlige” mekanismer er i stand

til at skabe adfærdsændringer.

Hvad er kontekst/moderatorer? Relationen mellem mekanismer og effekter er ikke fastgjort på

forhånd, men kontingent, dvs. afhænger af den pågældende kontekst. Om potentialet i en

mekanisme bliver til effekter afhænger af, hvorvidt den pågældende kontekst formår at aktivere

mekanismerne. Vi ved eksempelvis at en gnist kan få krudt til at eksplodere. Men det er kun under

bestemte betingelser, at det faktisk sker (fx når krudtet er tørt og kompakt pakket). Konteksten er

således en slags antændingsmekanisme, der bestemmer, hvorvidt mekanismer virker eller ikke. En

bestemt mekanisme virker måske i en kontekst, men ikke i en anden kontekst. Det er imidlertid

ofte vanskeligt i praksis at afgrænse og fokusere, hvilke af de mange forhold i programmers

omgivelser, som øver afgørende indflydelse på mekanismerne. Til det formål har Dahler-Larsen

(2003: 102ff) introduceret begrebet moderator (jf. også Dahler-Larsen 2001).4 Man kan tænke på

moderatorer som betingelser, der enten aktiverer eller deaktiverer mekanismen mellem årsag og

virkning. Det er forhold som kausalt regulerer et andet kausalforholds styrke og retning (Dahler-

Larsen 2003: 103).5

4 Dahler-Larsen (2001) nævner i den sammenhæng tre typer af moderatorer, som indvirker på programteoriers sandhedsværdi: ”Tragiske” moderatorer kan (ubevidst) ødelægge betingelserne for programmets virkning, ”magiske” moderatorer er positive, selvopfyldende profetier og ”konkurrerende” moderatorer kæmper for at påvirke en moderator, som er afgørende for flere programmer. 5 Når et kausalforhold skal forklares inden for metodologien skelnes tilsvarende mellem ”medierende” og ”modererende” variable. En ”medierende” variabel intervenerer direkte i relationen mellem årsag og virkning (og er således tilsvarende det vi betegner ”mekanismer”) imens en ”modererende” variabel betinger relationen mellem årsag og virkning (og dermed svarer til de vi betegner ”moderator” eller ”kontekst”).

9

Hvad er effekter? Kombinationen af mekanismer og kontekst (moderatorer) skaber bestemte

udfald (effekter eller ”outcomes”). En effekt er de (såvel intenderede som uintenderede)

resultater som skabes, når en indsats (program/intervention) fører til faktiske forandringer.

Effekter er ikke de umiddelbare eller kortsigtede resultater af en indsats, disse betegnes i

evalueringslitteraturen som ”præstationer” (output). Effekter er derimod de mellemsigtede og

langsigtede resultater (outcomes) (jf. også kapitel 1). At unge kontanthjælpsmodtagere deltager i

et kommunalt aktiveringsprojekt er eksempelvis det kortsigtede resultat (præstation). At de

gennemfører en ordinær uddannelse eller kommer i beskæftigelse er det mellemsigtede og

langsigtede resultat (effekt).

Forskningsdesignet i realistisk evaluering er ikke anderledes end i mange andre videnskabelige

undersøgelser. Teorier formuleres abstrakt og omhandler identifikationen og forklaringen af

regulariteter (outcomes). I forhold til realistisk evaluering formuleres teori som antagelser om

hvordan mekanismer (M) aktiveres i kontekster (C) som skaber bestemte outcomes (O). Specifikke

hypoteser udledes dernæst af teorierne og angiver, hvornår og hvordan regulariteter kan findes.

Hypoteserne er en specificering af hvordan programmer forventes at skabe forandring. Det tredje

skridt er at teste hypoteserne gennem observationer af forskellig art. Der findes ikke en bestemt

metode, som har forrang i den realistiske evaluering, idet metodevalget afhænger af

evalueringsspørgsmålet og hypotesernes karakter. Observationerne fører derefter til

programspecifikationer, altså konkrete udsagn om hvad der virker for hvem, under hvilke

omstændigheder.6 Faserne i gennemførslen af en realistisk evaluering er skitseret nedenfor.

6 Hvis der er tale om interventioner karakteriseret ved konflikt og konkurrerende programteorier, hvilket ofte er tilfældet indenfor offentlig politik og forvaltning, er den såkaldte ”teori-baserede stakeholderevaluering” en velegnet metode (jf. Hansen & Vedung, 2010).

10

Figur 12.1. Den realistiske evalueringscyklus

Kilde: R. Pawson & M. Tilley (1997: 85): ”Realistic evaluation”, London: Sage.

I sidste ende er målet at afkræfte, bekræfte, forfine, præcisere eller fokusere den pågældende

programteori. Den realistiske evaluering søger specifikationer af programteorierne frem for

universelle og kontekstuafhængige generaliseringer.

Realistisk evaluering har efterhånden opnået en sådan popularitet og udbredelse, at Ray Pawson

har følt sig foranlediget til at lave en kritisk gennemgang af udvalgte studier, som hævder at være

realistiske evalueringer, for at præcisere, hvad der vil sige at foretage realistisk evalueringer (jf.

Pawson & Manzano-Santella, 2012; Pawson, 2013: kapitel 2). Det er vores erfaring, at de samme

kritikpunkter er relevante i forhold til måden virkningsevaluering og især programteorier anvendes

i danske evalueringer. Pawson fremhæver tre typer af fejl, som ofte forekommer i gennemførslen

af realistiske evalueringer:

(1) Manglende forklaringer: Nogle evalueringer, som hævder at være realistiske evalueringer,

giver ikke en ordentlig forklaring på, hvorfor interventioner virker for hvem, under hvilke

omstændigheder. De nøjes i stedet med statistiske korrelationer eller beskrivelser af

aktiviteter. Statistiske beregninger kan være et vigtigt første trin til at afdække variationer i

programmers resultater. Men statistiske korrelationer må ikke forveksles med kausale

mekanismer og skal derfor underbygges med forklaringer.

(2) Anvendelse af én enkelt metode: Nogle evalueringer, som hævder at være realistiske

evalueringer, begår den fejl, at de anvender den samme metode til at konstruere og teste

programteorien. De arbejder ikke multimetodologisk og får derfor ofte ikke testet deres

programteori. Realistiske evalueringer søger, som nævnt, at bygge bro mellem

procesevaluering og effektevaluering og mellem kvalitative og kvantitative metoder.

Hypoteser

Hvad forventes at virke for

hvem, under hvilke

omstændigheder

Observationer

Multiple metoder

og analyse af

C,M,O

Program specifikation

Hvad virker for, hvem

under hvilke

omstændigheder

Teori

Kontekst (C)

Mekanismer (M)

Outcome (O)

11

Identificering af ”mekanismer” i offentlige interventioner forudsætter eksempelvis kvalitative

metoder, observationer af ”outcomes” er ofte baseret på kvantitative metoder, imens

inddragelse af ”kontekst” ofte vil forudsætte komparative og til tider historiske data. Ved at

kombinere metoderne undgår man at producere ”gode nyhedshistorier”, hvor man gentager

deltagernes eller medarbejdernes positive forhåbninger om, at programmer vil virke uden at

teste om de rent faktisk virker.

(3) Lange ingredienslister og kataloger: Den sidste fejl Pawson fremhæver, er at nogle

evaluatorer producerer lange ”ingredienslister” eller kataloger af kontekster, mekanismer og

”outcomes”. I mange ”realistiske evalueringer” forveksles programaktiviteter ofte med

mekanismer. CMO-konfigurationer er ifølge Pawson forholdsvis snævre og begrænsede

hypoteser om, at programmer skaber virkninger (outcomes) på grund af en underliggende

årsag (mekanismer), som kun fungerer under bestemte betingelser (kontekst). Programmer

eksisterer ikke i forudbestemte ”klumper” eller ”kasser” der kaldes kontekster, mekanismer

og ”outcomes”. Begreberne har derimod deres mening i deres funktion i den realistiske

forklaring og deres rolle i testningen af disse forklaringer.

Vi vil dog indvende, at Ray Pawson og kollegaer er delvist selvforskyldte i at evaluatorer ind i

mellem har svært ved at leve op til forskrifterne i realistisk evaluering. Det skyldes, at forskrifterne

til tider er uklare, tvetydige og ukonkrete. Der mangler efter vores erfaring en mere operationel

metodologi til hvordan man som evaluator kan gennemføre realistiske evalueringer. Dette kan vi

ikke tilbyde indenfor rammerne af dette kapitel, men vi vil i det følgende bestræbe os på at være

så konkrete og operationelle som muligt, når vi beskriver hvordan programteorier kan konstrueres

og evalueres.

Konstruktion af programteorier

En programteori er eksplicitte antagelser om, hvad der forbinder en given intervention (indsats,

projekt, program) overfor en bestemt målgruppe med bestemte resultater i en given kontekst.

Programteorier har forskellige betegnelser i litteraturen, fx interventionsteorier (Vedung, 2009),

CMO-konfigurationer (Pawson & Tilley, 1997; Pawson, 2013), logiske modeller (Funnell og Rogers,

2011), programteorier (Dahler-Larsen & Krogstrup, 2003; Dahler-Larsen 2013; Bredgaard m.fl.,

2011), indsatsteorier (jf. Danmarks Evalueringsinstitut) eller forandringsteori (jf. Rambøll, 2010;

Arbejdsmarkedsstyrelsen m.fl., 2011). Vi benævner dem ”programteorier” forstået som eksplicitte

antagelser om, hvad der virker for hvem, under hvilke omstændigheder. Programmer forstår vi

som en bred kategori, der kan indeholde offentlige indsatser, interventioner, politikker,

programmer og projekter. I det følgende beskriver vi, hvordan programteorier kan konstrueres og

præsenteres.

Programteorier kan anvendes som redskab til at forbedre planlægningen af programmer. En

forholdsvis simpel grafisk fremstilling af programteorier (jf. nedenfor) er velegnet til at visualisere

12

formålet med nye eller igangværende indsatser samt interessenternes ”bedste” antagelser om

hvorfor og hvordan indsatserne forventes at virke. Programteorier kan således anvendes til at

synliggøre den ofte ”usynlige” (tavse) faglige praksisviden og erfaring, som programmedarbejdere

har om hvorfor og hvordan indsatser virker og for hvem.

Programteorier kan også anvendes som styringsredskab. De medvirker til at skærpe antagelser om

hvorfor og hvordan en indsats forventes at virke og flytte fokus fra hvordan igangværende

aktiviteter faktisk implementeres, til hvordan de burde implementeres. Programteorier viser hvad

der er væsentligt ved en given indsats eller intervention og kan anvendes til at finde indikatorer og

indsamle data om progression frem mod slutmålet, dvs. som en slags resultatsyringssystem.

Endelig kan programteorier anvendes som evalueringsredskab, dvs. som eksplicitte hypoteser om,

hvad der virker for hvem, under hvilke omstændigheder. Gyldigheden og rækkevidden af disse

antagelser (hypoteser) skal testes gennem en evaluering af programteorien (det vender vi tilbage

til, når vi har beskrevet hvordan programteorier kan konstrueres).

Forandringsteori og implementeringsteori

En god programteori indeholder både konsistent(e) teori(er) om, hvordan programmet skaber

forandring for de individer som deltager og gør det muligt at implementere denne teori i

overensstemmelse med hensigterne. Hvis programmet ikke virker efter hensigten kan det skyldes

at der er enten teorifejl eller implementeringsfejl. Der er en afgørende forskel mellem de to fejl,

idet implementeringsfejl kan repareres (fx flere ressourcer, uddannelse af medarbejdere) imens

teorifejl ikke kan repareres.

Når man konstruerer en programteori, er det nyttigt at udforme både en forandringsteori og en

implementeringsteori (jf. Funnell & Rogers, 2011). Forandringsteori er de(n) generelle drivere eller

processer, der skaber forandring hos deltagerne og får dem til at ændre adfærd.

Forandringsteorien kan stamme fra en formel videnskabelig teori, men også en uformel og uudtalt

forståelse af, hvordan programmet virker.

Implementeringsteorien forklarer hvordan programmer er konstruereret for at aktivere disse

forandringsteorier. Der er mange forskellige ”forandringsteorier” indenfor forskellige fagdiscipliner

om hvad der skaber adfærdsændringer, som det ikke er muligt at gennemgå her (se i stedet

Funnell & Rogers, 2011: kapitel 11; Pawson, 2013: kapitel 6). Det samme gælder forskellige typer

af indsatser og programmer. Her skelner Vedung (2009, 2000) fx imellem

informationsprogrammer (”prædiken”, der virker gennem viden om fordele, ulemper og

13

konsekvenser), regulative programmer (”pisk”, der virker gennem tvang og sanktioner) og

økonomiske programmer (”gulerødder”, der virker gennem økonomiske belønning eller straf).7

I praksis udledes de to typer af teori ofte samlet. Fordelen ved analytisk at dele dem op er, at det

bliver tydeligt, at en programteori indeholder en generel teori om, hvad der skaber forandring hos

evaluanden (forandringsteorien) og en konkret teori om, hvilke instrumenter, som skal skabe

denne forandring i interventionen (implementeringsteorien). Denne opdeling giver mulighed for at

skelne mellem teorifejl og implementeringsfejl, når programteorien skal evalueres (jf. nedenfor).

Kilder til programteori

En programteori kan bygge på mange forskellige kilder afhængigt af formålet, fx en systematisk

litteraturgennemgang, observationer, fagligt materiale, en projektbeskrivelse, politiske

udmeldinger og logisk ræsonnement (Dahler-Larsen, 2013: 121, Funnell & Rogers, 2011: 108).

Programteorien kan udledes både deduktivt og induktivt. De to tilgange er ikke gensidigt

udelukkende og overlapper ofte i praksis.

1. Deduktiv tilgang: Programteorien opstilles deduktivt på baggrund af formelle og uformelle

dokumenter om interventionen. Det kan både være retningslinjer, tidligere rapporter og

evalueringer samt mere generel litteratur og teori om genstandsfeltet. På baggrund af den

indsamlede litteratur kan evaluator lave et logisk ræsonnement om hvordan interventionen

virker. Evaluator indfører en antagelse (if-then) om, at interventionsteorien er rationelt

begrundet og spørger sig selv: ud fra beskrivelsen af interventionen i sin rå form, hvad skal så

foreligge i teorien for at den skal være sammenhængende instrumentel? Hvilke årsags-

virknings-relationer er eksempelvis underforstået? Evaluator skal syntetisere

sammenhængende relationer mellem mål og midler, som ikke er fuldt artikulerede i den rå

interventionsteori, men som vi med god grund kan hævde ligger i nærheden af sandheden.

2. Induktiv tilgang: Med denne tilgang udleder evaluator sin programteori fra praksis. Det

inkluderer typisk observation, interview med fagpersonale og deltagere. Ved denne tilgang

ræsonneres der ikke frem til de usynlige mekanismer, de afsøges i stedet i feltet. Evaluator bør

i denne proces overveje hvilke interessenter der inddrages og hvordan modstridende eller

divergerende forestillinger skal håndteres. Skal der udarbejdes flere programteorier eller én

samlet? Og har evaluator mandat til at beslutte hvilke forestillinger der skal med? De relevante

interessenter vil typisk være fagpersonalet og ledelsen, politikere og bidragsydere, vigtige

samarbejdspartnere, målgruppen for interventionen og dem der forventes at nyde godt af

programmet. En udvidelse af denne forståelse er at lade interessenterne (fx

programmedarbejdere eller faglige ledere) selv udarbejde deres egne programteorier.

7 Funnell & Rogers (2011: kapitel 12) betegner disse for ”program-arketyper” og tilføjer desuden sagsbehandling, lokal kapacitetsopbygning og direkte serviceydelser.

14

Programteorier anvendes i så fald som et redskab til intern evaluering og faglig dialog. Det er

således ikke en ekstern evaluator som har ansvar for at konstruere programteorien, om end de

kan anvendes som proceskonsulenter og undervisere. En programteori der udledes induktivt

kan være selve produktet af evalueringen (Funnell & Rogers 2011: 102), men den kan også

gøres til genstad for evaluering. Evalueringen kan afsløre uoverensstemmelser mellem teorien

og implementeringen af interventionen, samt mellem interessenternes forestillinger og

udtalelser om hvad de gør og det, som de gør i praksis.

Funnell og Rogers (2011) påpeger at det er nødvendigt, at vurdere hvilken type problem

evalueringen skal håndtere, særligt når det kommer til at beslutte, om programteorien skal

opstilles på baggrund af dialog med interessenter og i så fald hvem og hvor mange. Her skelner

Funnell og Rogers (2011) mellem simple, komplicerede og komplekse problemer. Ved et simpelt

problem, fx at bage en kage, hersker der lav usikkerhed om, hvordan man opnår det ønskede

resultat (følg opskriften) og begrænset uenighed om målet (en chokoladekage skal smage af

chokolade). I disse tilfælde kan det være tilstrækkeligt at have dialog med en lille kreds af

interessenter, fx fagpersonale og brugere. Ved komplicerede problemer hersker der stor

usikkerhed om midler, men enighed om målet (fx at sende en raket til månen) eller sikkerhed om

midler, men uenighed om målet (fx abort). Ved komplekse problemer er der både usikkerhed om

midler og uenighed om målet (fx opdrage et barn). Når problemet er enten kompliceret eller

komplekst anbefaler Funnell og Rogers (2011), at der er dialog med en bredere kreds af

interessenter. Formålet hermed er at skabe legitimitet bag evalueringen, få divergerende

forestillinger frem og skabe rum for vidensdeling.

Visuel præsentation

Når kildematerialet til programteorien er indsamlet er der ofte en god ide at lave en visuel

præsentation af programteorien. En god fremstilling af en programteori er hverken for detaljeret

eller for overfladisk og skal kunne fungere som et redskab i evalueringen. Der er imidlertid en

afvejning imellem at konstruere programteorier som detaljerede ”virkelighedsbeskrivelser” og

samtidig anvende dem som evalueringsværktøj. Jo mere virkelighedsnære og genkendelige

programteorier bliver for programmets interessenter, desto vanskeligere bliver de at evaluere. Og

omvendt, jo mere simple og evaluerbare programteorierne er, desto mere abstrakte og fjerne vil

de forekomme i forhold til den ofte komplekse sociale virkelighed de beskriver. Der er ikke nogle

simple løsninger på dette dilemma, men der er forskellige visuelle ”skabeloner” i litteraturen som

kan håndtere varierende grader af kompleksitet.

Den grafiske eller sproglige fremstilling af programteorien er et redskab til at evaluere de udvalgte

dele af kausalforholdene, man ønsker at undersøge. Der må derfor ved konstruktionen af

programteori tages højde for, hvor lang en kausalkæde som er hensigtsmæssig, samt hvor

detaljeret den bør være. På den ene side kritiseres programteorier for at være forsimplende, men

15

på den anden side er et landkort i størrelsesforholdet 1:1 ubrugeligt (Dahler-Larsen 2013: 124).

Udformningen af programteorien vil uundgåeligt være en proces med tilvalg og fravalg. Det er

derfor en øvelse, som skal gøres med omtanke og som bliver bedre med erfaring og gentagne

revisioner.

“Måden hvorpå vi tænker om programteori påvirker hvordan vi repræsenterer den og

måden hvorpå vi repræsenterer programteori påvirker hvordan vi tænker på den”

(Funnell og Rogers, 2011: 241).

Konstruktion af programteori indeholder en dualitet. Den måde vi tænker på programmet

influerer på, hvordan vi visualiserer programteorien, men når programteorien først er visualiseret,

så vil den efterfølgende påvirke den måde vi tænker på programmet. Programteorien bliver

derved styrende for evalueringen.

Programteorier fremstilles ofte i det, der kaldes en logisk model. En logisk model kan tage mange

forskellige former, men i evalueringslitteraturen anvendes typisk pilediagrammer, rutdiagrammer,

udfaldskæder eller realistiske matricer (Funnell & Rogers 2011: 32, 243f).

Pilediagrammer visualiserer interventionen som en række sammenhængende kasser med pile

imellem. Interventionen visualiseres trin for trin fra input, indsats, output til outcome. I eksemplet

nedenfor bruger vi Funnell og Rogers ”æbleeksempel”, hvor der leveres gratis æbler til studerende

for at forbedre sundhedstilstanden: ”An apple a day keeps the doctor away”. Her kan en

programteori synliggøre, under hvilke omstændigheder udlevering af æbler leder til forbedret

helbred. Teorien bag interventionen er, at uddeling af æbler giver deltagerne bedre adgang til frisk

frugt og at deres helbred forbedres, når de spiser æblerne pga. C-vitamin.

Figur 12.2. Programteori som pilediagram

Pilediagrammets styrke er, at den er simpel og giver et godt overblik over interventionen.

Modellen kan udbygges med flere kausale kæder, hvis interventionen eksempelvis indeholder

flere aktiviteter. Den minder imidlertid mere om en implementeringsteori end om en

programteori. Den indeholder eksempelvis ikke antagelser om mekanismer og moderatorer, som

er afgørende for at gennemføre en virkningsevaluering (jf. Funnell & Rogers, 2011: 24ff.).

Input

- Gratis æbler på skolerne

Indsats

- Elever spiser et æble hver dag

Resultat

- Eleverfår tilskud af Vitamin C i kroppen

Effekt

- Eleverfår bedre helbred

16

Udfaldskæder (outcome chains) består ligesom pilediagrammer af en række kasser, men til forskel

fra pilediagrammerne består hver kasse af et udfald (outcome). Indsatsen bliver derved ikke

beskrevet som en selvstændig kasse, men indgår som en del af beskrivelsen af et udfald.

Udfaldskæder minder om pilediagrammer, men er mere udbyggede og bedre egnede til at

indfange hvordan en intervention virker, herunder forandrings- og implementeringsteorien.

Modellen er derfor også velegnet til at visualisere de variable som skal medtages i evalueringen

(Funnell & Rogers 2011: 245f).

Figur 12.3. Programteori som udfaldskæde (outcome chain)

I æble-eksemplet bliver det muligt, at visualisere flere forskellige udfald – eller nærmere hypoteser

om hvorfor indsatsen forventes at virke. Det er således muligt, at årsagen til de studerendes

forbedrede helbred ikke (kun) skyldes et højere niveau at vitamin C i kroppen, men at de

studerende, som spiser et æble er mindre sultne, hvorfor de spiser mindre junkfood og dermed får

bedre BMI.

En tredje mulighed er realistiske matricer som blev introduceret af Ray Pawson og Nick Tilley

(1997) og visualiserer programteorien som CMO-konfigurationer. I forhold til de to andre

visualiseringer er fordelen ved den realistiske matrice at konteksten tydeliggøres.

17

Figur 12.4. Programteori som realistisk matrice

Kontekst (C) + Mekanisme (M) = Outcome (O)

Skoler med mange overvægtige børn

+ Æbler indeholder C-vitamin + Æbler erstatter usunde fødevarer + Undervisning om sund levestil

= Elever får bedre helbred Skoler med få overvægtige børn

Skoler i storbyer

Skoler på landet

Vi undersøger i æble-eksemplet om indsatsen virker forskelligt på skoler i forskellige kontekster

(skoler med mange/få ovevægtige børn og skoler i storbyer/landet). Vi kan også undersøge hvilke

mekanismer, der er kausalt forbundet med effekten (at æbler indeholder C-vitamin, at æbler

erstatter usunde fødevarer eller om undervisning om sund levestil er mest virksomt). Pawson og

Tilleys (2013) idé bag den realistiske matrice er, at der altid vil være flere hypoteser i spil. Ved at

opstille CMO-konfigurationen i en tabel, bliver det muligt at opliste forskellige hypoteser om

sammenhængen mellem kontekster, mekanismer og outcomes.

En sidste grafisk illustration vi ønsker at præsentere er en vi selv har anvendt i forbindelse med

forskellige virkningsevalueringer. Modellen inkorporerer input, aktivitet, output og outcome fra

pilediagrammet med mekanismer og kontekst/moderatorer fra den realistiske matrice. I kasserne

ved hvert af programteoriens begreber har vi indsat spørgsmål, som er væsentlige at besvare for

at konstruere programteorien.

18

Figur 12.5. Programteori som rutediagram

Kilde: Tilpasset efter T. Bredgaard m.fl. (2011): Hvad virker i aktiveringsindsatsen? Beskæftigelsesregion

Nordjylland.

Rutediagrammet stammer fra projektet ”Hvad virker i aktiveringsindsatsen?”, hvor det blev brugt

til at konstruere og evaluere programteorier for forskellige typer af beskæftigelsesindsatser (jf.

Bredgaard m.fl. 2001). Fordelen er, at dette rutediagram synliggør de mekanismer som får

indsatsen til at virke, samt de moderatorer – eller kontekstforhold – som er en forudsætning.

Derved bliver det også tydeligt, hvilke variable der skal indgå i testningen af programteorien.

En programteori kan ligeledes fremstilles sprogligt. Fordelen ved en sproglig fremstilling af

programteorien er, at den kan være lettere at forstå end en visuel præsentation for

udefrakommende. Kasserne og pilene i den grafiske fremstilling efterlader ofte mange spørgsmål

og er ikke altid intuitiv for dem der ikke selv har været med til at udarbejde den. Det kan derfor

være en fordel både at have en grafisk og sproglig fremstilling af programteorien (Funnell &

Rogers 2011: 249f). Den sproglige fremstilling kan enten være skrevet som et narrativ eller som en

antagelse ”if-then”. Inspireret af Funnell og Rogers (2011) og Dahler-Larsen (2013) kunne

programteorien for æble-projektet se således ud (”If-then”) (Funnell & Rogers, 2011: 122; Dahler-

Larsen, 2013: 122):

Hvis der leveres gratis æbler til skolerne

Som stilles frem i spisefrikvarteret

Og eleverne ser æblerne

Og spiser dem

19

Og dermed undlader at spise deres normale mellemmåltid (fx usundt snack)

Så vil det forbedre deres niveau af C-vitamin og deres BMI

Hvorved de opnår bedre heldbred.

Der er således flere muligheder for at illustrere programteorier. Det væsentligste er at

programteorien synliggør antagelser om, hvad der virker for hvem, under hvilke omstændigheder.

Det er gyldigheden og rækkevidden af disse antagelser som testes, når programteorien

efterfølgende skal evalueres.

Evaluering af programteorier

Et væsentligt formål med at konstruere en programteori, er at teste om programmet faktisk virker

som antaget. Derfor skal den gode programteori være testbar – altså kunne efterprøves empirisk.

Man efterprøver programteoriens gyldighed og rækkevidde, ved at teste antagelserne empirisk

ved brug af forskellige dataindsamlingsmetoder. Efterprøvningen af teori kan antage mange

former, hvorfor det er nødvendigt at gøre sig en række overvejelser, om det evalueringsdesign og

de metoder, som sættes i spil. I det følgende beskriver vi først hvilke typer af kilder og metoder,

som er velegnede i evaluering af programteorier og dernæst, hvordan man i evalueringen kan

skelne mellem eventuelle teori- og implementeringsfejl. Til sidst redegør vi for hvordan man i

virkningsevaluering behandler det kontrafaktiske spørgsmål om, hvad der ville være sket, hvis

programmet ikke eksisterede og hvilke metoder der kan anvendes til undersøge forbindelserne

mellem årsag og virkninger.

En multimetodologisk tilgang

Formålet med at evaluere en programteori, er, som nævnt, at blive i stand til at afkræfte,

bekræfte, revidere, specificere eller forfine antagelserne om programmets virkninger. Pawson &

Tilley (1997) påpeger, at der er tale om en cirkulær proces, hvori man under evaluering bevæger

sig fra teori henover hypotesedannelse og empirisk test, for til sidste at blive i stand til at

specificere sine programteoretiske antagelser.

At der ikke er én bestemt type metode, som har forrang i virkningsevaluering, betyder at

metodevalget i stedet afhænger af evalueringsspørgsmålet og af de opstillede hypotesers

karakter. Man søger at anvende de metoder, som findes mest adækvate til at teste lige netop det

led i programteorien, som man ønsker at undersøge. Det kan således være en fordel at inddrage

forskellige metoder, til at belyse forskellige dele af en programteori, alt efter hvilket spørgsmål,

som ønskes besvaret. Om en effektevaluering eksempelvis er relevant, afgøres alene af

forskningsspørgsmålet. Det er ikke fordelagtigt at forlange så sikre effektmålinger at designet

ødelægger interventionen, eller at man opnår metodisk og praktisk handlingslammelse. Det

20

afgørende er en praktisk dømmekraft, som overskygger på forhånd fastlagte metoderegler

(Dahler-Larsen, 2013: 171).

I det følgende ser vi nærmere på, hvordan et evalueringsdesign konkret og metodisk kan bygges

op omkring et eksempel på en programteori. I figur 12.6 præsenteres et skelet til en simpel

programteori for en indsats overfor sygemeldte borgere. Målet med interventionen er at gøre de

sygemeldte i stand til at genoptage deres daglige arbejde. Programteorien er illustreret ved et

rutediagram, der beskriver indsatsens målgruppe, aktiviteter, mekanismer, samt del- og slutmål.

For at begrænse kompleksiteten præsenteres blot en enkelt aktivitet og et enkelt bud på en

virksom mekanisme (for en mere detaljeret programteori, se Sieling-Monas & Bredgaard, 2015).

Figur 12.6. Programteori for sygedagpengeindsats

Hvis vi skal opbygge et design som kan teste ovenstående programteori, må vi se nærmere på de

enkelte dele for at vurdere, hvilke metoder det vil være hensigtsmæssigt at anvende. Hvis vi

eksempelvis gerne vil teste hvorvidt aktiviteten har ført til den ønskede effekt (altså hvorvidt fysisk

træning medvirker til hurtigere tilbagevenden til arbejdet), kan dette lade sig gøre ved hjælp af en

effektmåling på fx survey- eller registerdata. Er vi derimod interesserede i at undersøge, om

deltagerne oplever færre smerter (resultat) som følge af træningen (aktivitet), kunne det være en

idé at gennemføre eksempelvis interview eller en spørgeskemaundersøgelse før og efter

interventionen. På den måde afhænger valg af metoder af, hvilke led i en programteori vi vil teste,

og som følge heraf hvilke spørgsmål vi ønsker besvaret.

Virkningsevaluering fokuserer på at undersøge programteoriens virkninger og ikke nødvendigvis

brugernes eller deltagernes tilfredshed eller oplevelser med indsatsen (jf. Pawson & Tilley,

1997:159). Når man i virkningsevaluering ofte plæderer for vigtigheden af at inddrage

programdeltagerne, skyldes det at brugerne kan være oplagte kilder til at belyse programteoriens

antagelser, snarere end et ønske om at høre dem ud fra normative standarder (Dahler-Larsen

2013: 136). Et eksempel på ovenstående er, at de sygemeldte deltagere på genoptræningskurset

ikke i udstrakt grad vil blive bedt om at beskrive, hvordan de har oplevet deres deltagelse, eller om

de har fundet udbyttet af kurset ”godt” eller ”dårligt”. Snarere vil de blive adspurgt, hvilke

funktioner de er blevet i stand til at varetage, hvordan deres smerteoplevelse har udviklet sig

undervejs, eller hvilke aktiviteter de har været i stand til at udføre henholdsvis før og efter

deltagelsen. Man leder således efter indikationer på virkninger af indsatsen, fremfor holdninger,

Målgruppe

- Sygemeldte

Aktivitet

- Fysisk træning

Mekanisme

- Genoptræn skade

Resultat

- Færre smerter

Effekt

- Tilbage til arbejde

21

meninger og bedømmelser. Det forventes at de involverede i et program vil have en forståelse af

og viden om værdifulde aspekter, men ikke at de nødvendigvis kan abstrahere og generalisere

disse opfattelser i relation til spørgsmålet om, hvad der virker for hvem (Pawson & Tilley,

1997:161).

Evalueringskriterierne i en virkningsevaluering defineres således igennem programteorien. Det er

ikke altid muligt, eller ønskværdigt, at teste hele den programteori, som er blevet formuleret i

forbindelse med en indsats. Det kan i stedet været en fordel, eller en nødvendighed, at udvælge

de dele af programteorien som er særligt centrale, eller som man har en særlig interesse i at få

efterprøvet. Funnell & Rogers (2011) argumenterer i denne forbindelse for, at man må tage stilling

til, hvilke aspekter af en indsats som er mest centrale for evalueringen, samt hvilke effekter og

indikationer, som det er vigtigst at belyse (Funnell & Rogers, 2011:426)

Teorifejl og implementeringsfejl

En af de ofte fremhævede styrker ved at arbejde programteoretisk, er muligheden for at skelne

imellem de såkaldte teorifejl og implementeringsfejl. Når vi evaluerer et program og vurderer

resultaterne, sker det som bekendt også at de forventede virkninger udebliver. I disse situationer

vil vi være interesserede i at vide, hvorfor dette er tilfældet. Er der tale om en fejl i vores teori

omkring programmets virkninger? Eller er der snarere tale om en fejl i måden hvorpå programmet

blev implementeret? Teorifejl angiver det forhold, at en indsats ikke virker som forventet,

hvorimod implementeringsfejl angiver, når indsatsen ikke udføres som planlagt (Dahler-Larsen,

2013: 125). Sondringen mellem de to fejltyper, er illustreret i tabellen.

Tabel 12.2. Spørgsmål til evaluering af programteori

Blev interven-

tionen imple-

menteret som

planlagt?

Var der

tilstrækkeligt

engagement,

deltagelse og

efterlevelse?

Blev kort- og

mellem-

sigtede mål

(resultater)

opnået?

Blev

langsigtede

mål (effekter)

opnået?

Fortolkning af resultater

Nej Nej Nej Nej Implementeringsfejl

Ja Nej Nej Nej Fejl i programmets evne til at

skabe engagement eller

efterlevelse

Ja Ja Nej Nej Teorifejl (tidligt i

kausalkæden)

Ja Ja Ja Nej Teorifejl (senere i

kausalkæden)

Ja Ja Ja Ja Teorien bestyrket

22

Ja Ja Nej Ja Teorifejl (anden mekanisme

end forventet forklarer

resultaterne)

Kilde: Funnell og Rogers (2011): Purposeful Program Theory, Jossey-Bass (s. 478).

Som det ses ovenfor, kan manglende resultatopnåelse skyldes at interventionen ikke blev

implementeret efter hensigten. Det er også muligt, at interventionen blev implementeret korrekt,

men ikke evnede at engagere deltagerne eller sikre deres efterlevelse af interventionens

målsætninger, eksempelvis hvis deltagerne fandt interventionen uinteressant, gammeldags eller

krænkende. Hvis det lykkes at implementere interventionen korrekt og engagere deltagere kan

manglende målopfyldelse skyldes teorifejl.

Der er tre typer teorifejl: (1) Teorifejl tidligt i kausalkæden, hvis kort- eller mellemsigtede

resultater udebliver, (2) teorifejl senere i kausalkæden, hvis langsigtede resultater (effekter)

udebliver, og endelig, (3) teorifejl, hvor de langsigtede resultater opnås, men skyldes andre

mekanismer end de forventede. Endelig er der muligheden at programteorien kommer bestyrket

ud af evalueringen, hvis evalueringsresultaterne er kongruente med programteorien.

I tillæg til denne model har Dahler-Larsen (2013) følgende bud på en ramme for fortolkningen af

henholdsvis teori- og implementeringsfejl.

Tabel 12.3. Teori eller implementeringsfejl?

Resultatet indtraf Resultatet indtraf ikke

Implementering af indsatsen

var i orden

1. Tiltro til programteori

styrket

2. Teorifejl

Implementeringen af

indsatsen var ikke i orden

3. Andre forklaringer end

programteorien gælder

4. Implementeringsfejl,

muligvis teorifejl

Kilde: Dahler-Larsen (2013): Evaluering af projekter - og andre ting, som ikke er ting, Syddansk

Universitetsforlag (s. 125).

Det bemærkes at felt 1 og 2 som regel muliggør de simpleste konklusioner, imens felt 3 og 4 giver

anledning til diskussion af såvel teorien (resultater er opstået af andre årsager end indsatsen) og af

implementeringen (med herpå følgende mulighed for teorifejl) (Dahler-Larsen, 2013:125). Selvom

virkeligheden som oftest vil være langt mere kompleks, er sondringen alligevel velegnet til at

kunne specificere, under hvilke omstændigheder en programteori er virksom.

Kausalitet i virkningsevaluering

Et hovedspørgsmål i evaluering generelt og specifikt i forhold til evaluering af programteorier er

spørgsmålet om kausalitet, altså hvordan man undersøger og påviser om observerede effekter

skyldes programmet eller andre faktorer. Det kaldes det kontrafaktiske problem, altså hvad der

23

ville være sket, hvis programmet ikke eksisterede, og er et centralt problem i al form for

evaluering (jf. også kapitel 10 om effektevaluering).

Der kan være en tendens til at krybe udenom kausalitetsspørgsmålet og det kontrafaktiske

problem. Det skyldes dels, at det er udfordrende at besvare, dels at nogle evaluatorer, som

benytter virkningsevaluering har en forkærlighed for mere kvalitative metoder og måske har

konstrueret ganske detaljerede programteorier, som er præcise ”virkelighedsbeskrivelser”, men

vanskelige at teste.

I så fald bliver programteorien et værktøj til planlægning, implementering og styring, men ikke

evaluering af programmer. Hvis man ønsker at vide om programteorien faktisk virker som antaget

og har de ønskede effekter, er der ingen vej udenom at teste programteoriens kausale

forbindelser.

Den klassiske løsning på kausalitetsspørgsmålet er tilfældig lodtrækning og randomiserede

kontrollerede eksperimenter (jf. kapitel 10). Der er i evalueringslitteraturen forslag til hvordan

kausale forklaringer kan findes ved at kombinere programteorier med traditionelle

eksperimentelle og kvasi-eksperimentelle designs (jf. Cook 2000; Davidson 2000).

Indenfor litteraturen om virkningsevaluering er der dog mange, som ikke accepterer

lodtrækningsforsøg som den eneste eller bedste form for evidens (Pawson & Tilley, 1997; Pawson,

2006, 2013; Funnell & Rogers, 2011; Donaldson, 2000). Der advokeres i stedet for at anvende

”mixed” metoder og forskellige datakilder afhængigt af problemstillingens og evaluerings formål

og karakter.

Programteorier gør det også muligt at undersøge, om der er kausal sammenhæng mellem

programmet og effekterne i de situationer, hvor tilfældig lodtrækning ikke er mulig eller ønskelig

(hvilket i parentes bemærket ganske ofte er tilfældet, når det gælder evaluering af offentlig politik

og administration). Når den kontrafaktiske situation ikke kan etableres, kan programteorier

bidrage til at undersøge om programmet opnåede kort- og mellemsigtede resultater, om der er

alternative forklaringer på effekter og finde mønstre i data (såkaldt ”pattern matching”). I disse

tilfælde udvikles hypoteser, som testes med ikke-eksperimentelle metoder (jf. Pawson & Tilley,

1997; Donaldson, 2000; Funnell & Rogers, 2011).

Pawson har i flere værker foretaget en grundig diskussion af kausalitet og teori i realistisk

evaluering (jf. Pawson & Tilley 1997; Pawson 2006; Pawson 2013). I stedet for såkaldt

”successionistisk kausalteori” benytter den realistisk evaluering såkaldt ”generativ kausalteori”,

som antager at der er en virkelig (ikke bare statistisk) forbindelse mellem begivenheder, som er

forbundet kausalt. Pawson og Tilley giver følgende eksempler på generative mekanismer:

24

”Vi siger, at krudtet eksploderede, vi siger at økonomien gik ind i en lavkonjunktur, vi

siger at en indsat i et fængsel blev rehabiliteret. Når vi forklarer disse forandringer,

peger vi ofte på en ekstern observerbar årsag (så som en gnist, en oliekrise, en

disciplineringslejr). Men en del af forklaringen beror også på interne karakteristika ved

det som er forandret (så som den kemiske sammensætning af krudtet, økonomiens

struktur, den indsattes natur og karakter). Disse interne tilbøjeligheder eller kræfter er

vigtige i videnskabelig såvel som i dagligdags forklaringer fordi de giver mening i de

tilfælde, hvor den kausale forbindelse er fraværende (som når gnisten ikke antænder

krudtet der ikke er kompakt presset sammen, når en oliekrise ikke berører

olieproducerende lande eller udviklingslande eller når en disciplineringslejr blot hærder

den i forvejen hærdede kriminelle)” (Pawson & Tilley 1997: 33).

Generativ teori anser således kausalitet som både intern og ekstern i forhold til det pågældende

program som evalueres. Kausalitet beskriver fænomeners potentiale for forandring. Kritikken af

den eksperimentelle evaluerings såkaldt ”successive” teori om kausalitet er, at dens fokus på det

observerbare og kontrollerbare får den til at overse de tilbøjeligheder, kræfter og potentialer som

sociale programmer og programdeltagere besidder. Et program producerer således ikke effekter

automatisk (successionistisk), men tilbyder muligheder som enten kan eller ikke kan udløse

handling via deltagernes kapacitet til at foretage valg (Pawson & Tilley 1997: 38).

I andre dele af litteraturen skelnes mellem variansbaserede og procesbaserede tilgange til

evaluering (jf. Gering, 2005). Peter Dahler-Larsen betegner effektevaluering som variansbaseret,

imens virkningsevaluering betegnes som en procesbaseret tilgang til effektevaluering (Dahler-

Larsen, 2013). I virkningsevaluering handler udsagnskraften ifølge Dahler-Larsen ikke om

variationer i en uafhængig variabel eller antallet af observationer, men af observationernes logiske

kvaliteter i forhold til evalueringens hypotese (Dahler-Larsen 2013:138).

En ikke-eksperimentel metode, som kan anvendes til at finde kausalitet i virkningsevaluering er

den såkaldte ”modus operandi” metode (jf. Scriven, 1974). Metoden anvender ”detektiv-

metaforen” til at beskrive måden hvorpå potentielle kausale forklaringer kan identificeres og

testes. Scriven beskriver hvordan kæder af kausale begivenheder efterlader ”signaturer” (beviser),

som evaluator kan efterspore ved at bevæge sig op og ned i kausalkæden. Hvis man starter med

de kausale effekter (sporene) kan man bevæge sig op i kausalkæden og undersøge hvad der kan

have forårsaget dem. I den modsatte retning kan man starte med selve programmet (den

mistænkte) og eftersøge ned i kausalkæden hvilke konsekvenser programmet har haft og igennem

hvilke mekanismer. Hvis ”beviserne” er i overensstemmelse med de forventede spor fra en

kausalkæde, så har vi større tiltro til at kausalkæden indeholder den korrekte kausale forklaring.

Beviser der ikke er i overensstemmelse med det forventede spor eliminerer programmet som den

kausale forklaring. Manglende beviser gør forklaringen mere tvivlsom. Der er ifølge Scriven to

konkrete metoder til at finde kausalitet med ”modus operandi” metoden:

25

1. Årsagslister: Denne metode forudsætter at vi har en liste over alle mulige årsager til den

observerede effekt. Hvis effekten indtræffer og kun en af de mulige årsager indtræffer

samtidig, så er det højeste sandsynligt den rigtige årsag.

2. Følgeslutninger: Hvis mere end én af de mulige årsager indtræffer, men kun en af de

karakteristiske kausalkæder (modus operandi) var til stede for én af årsagerne, så er det

sandsynligvis den rigtige årsag.

Der er også andre kriterier, som kan anvendes til at opbygge kausalforklaringer. De første tre

kriterier i tekstboksen nedenfor er foreslået af filosoffen David Hume (citeret i Donaldson, 2000; jf.

også Dahler-Larsen, 2003, 2014) de øvrige stammer fra Huberman & Miles (1998).

Der er her tale om logiske følgeslutninger, som både kan underbygges med kvalitative og

kvantitative data. Der er med andre ord ingen simple løsninger på det vanskelige spørgsmål om

kausale forbindelser mellem program og effekter.

Afrunding

Virkningsevaluering er ikke et mirakelmiddel, som kan anvendes ukritisk til ethvert

evalueringsspørgsmål. Men, hvis man som evaluator ønsker at undersøge hvorfor og hvordan

programmer virker, kan virkningsevaluering være det rette valg. Som det formentlig allerede står

klart for læseren er virkningsevaluering ikke en simpel evalueringsmodel, som der findes en klar

opskrift på hvordan bedst udformes. Alt efter temperament er dette både en fordel og en ulempe.

En fordel fordi virkningsevaluering rejser komplekse og væsentlige evalueringsspørgsmål og graver

dybere for at finde svarene. Virkningsevaluering er med Ray Pawsons ord en ”never-ending

journey”, men heldigvis en spændende og lærerig rejse. En ulempe, hvis man er på jagt efter den

”bedste” evalueringsmodel og bare vil have klaret jobbet hurtigst muligt. Så kan

virkningsevaluering forekomme forvirrende og frustrerende.

Logiske følgeslutninger til at identificere kausalitet:

1. Præcedens i tid (A før B)

2. Vedvarende sammentræf (når A, altid B)

3. Indbyrdes påvirkning (en plausibel mekanisme forbinder A med B).

4. Forbindelsens styrke (meget mere af B sammen med A end med de andre årsager)

5. Biologisk hældning (hvis mere af A, således også mere af B)

6. Kohærens (forbindelsen mellem A og B passer med eksisterende viden om A og B)

7. Analogi (A og B minder om det velkendte mønster vi kender for C og D).

26

Referencer

Albæk, E. (1988): Fra sandhed til information: Evalueringsforskning i USA – før og nu, Akademisk

Forlag.

Antoft, R., M.H. Jacobsen, A. Jørgensen & S. Kristiansen (2007), red: Håndværk og Horisonter -

Tradition og nytænkning i kvalitativ metode, Syddansk Universitetsforlag.

Arbejdsmarkedsstyrelsen (2011): Kogebog i forandringsteori, Arbejdsmarkedstyrelsen,

Beskæftigelsesregion Midtjylland og Mploy.

Astbury, B. & Leeuw, F.L. (2010). Unpacking Black Boxes: Mechanisms and Theory Building in

Evaluation. American Journal of Evaluation, 31, 363–381.

Bickman, L., 1989. Barriers to the use of program theory. Evaluation and Program Planning, 12,

387–390.

Bredgaard, T., H.H. Jørgensen, R. Madsen, M.R. Dahl & C. Hansen (2011): Hvad virker i

aktiveringsindsatsen?, Beskæftigelsesregion Nordjylland.

Chen, H.-T. (1990). Theory-driven evaluations, London: Sage.

Chen, H.-T., 1994. Theory-driven Evaluations: Need, Difficulties, and Options. American Journal of

Evaluation, 15, 79–82.

Cook, T.D. (2000). The false choice between theory-based evaluation and experimentation. New

Directions for Evaluation, 2000, 27–34.

Davidson, E.J., 2000. Ascertaining causality in theory-based evaluation. New directions for

evaluation, 17–26.

Dahler-Larsen, P. (2001): From Programme Theory to Constructivism: On Tragic, Magic and

Competing Programmes. Evaluation, 7(3), 331-349.

Dahler-Larsen, P. (2013): Evaluering af projekter – og andre ting, som ikke er ting, Syddansk

Universitetsforlag.

Dahler-Larsen, P. & H.K. Krogstrup (2003): Nye veje i evaluering, Systime Academic.

Davidson, E.J. (2000). Ascertaining causality in theory-based evaluation. New directions for

evaluation, 17–26.

27

Funnel, S.C & P.J. Rogers (2011): Purposeful Program Theory - Effective Use of Theories of Change

and Logic Models, Jossey-Bass.

Gerring, J. (2005): Causation: A Unified Framework for the Social Sciences. Journal of Theoretical

Politics, 17, 163-198.

Hansen, M. B., & Vedung, E. (2010): Theory-Based Stakeholder Evaluation. American Journal of

Evaluation, 31(3), 295-313.

Krogstrup, H.K. (2003): Evalueringsmodeller – Evaluering på sociale område, Aarhus: Systime.

New Insight m.fl. (2011): Håndbog i virkningsevaluering indenfor beskæftigelsesområdet,

Udarbejdet af New Insight, Center for Arbejdsmarkedsforskning og Forskningscenter for

Evaluering for Beskæftigelsesregion Nordjylland.

Pawson, R. (2006): Evidence-based Policy – A Realist Perspective, London: Sage.

Pawson, R. (2013): The Science of Evaluation – A Realist Manifesto, London: Sage Publications.

Pawson, R. & N. Tilley (1997): Realistic Evaluation. London: Sage Publications.

Pawson, R. & Manzano-Santaella, A. (2012): A realist diagnostic workshop, Evaluation, 18(2), 176-

191.

Rambøll (2010): Manual til udarbejdelse af forandringsteori – workshops i jobcentrene, Rambøll for

Arbejdsmarkedsstyrelsen.

Rogers, P. m.fl. (2000). Program Theory Evaluation : Practice , Promise , and Problems. New

Directions for Program Evaluation, 5–14.

Rogers, P.J. (2007). Theory-Based Evaluation: Reflections Ten Years On. New Directions for

Evaluation, 63–67.

Rossi, P.H., M.W. Lipsey & H.E. Freeman (1999): Evaluation – A Systematic Approach, London: Sage

Publications (7. udgave, 2004).

Schuman, E. (1967). Evaluative research, New York: Russell Sage Foundation.

Scriven, M. (1974). Maximizing the Power of Causal Investigations: The Modus Operandi Method.

In Evaluation in Education: Current Applications, 68–84.

28

Sieling-Monas, S.M. & T. Bredgaard (2015): Er der evidens for antagelserne i

beskæftigelsesindsatsen for sygedagpengemodtagere, Tidsskrift or Arbejdsliv, 17(1), 28-43.

Vedung, E. (2000): Public Policy and Program Evaluation, Brunswick, New Jersey: Transaction

Publishers.

Vedung, E. (2009): Utvärdering i politik och förvaltning, Studentlitteratur (3. oplag).

Vedung, E. (2010): Four waves of evaluation diffusion, Evaluation, 16(3), 263-277.

Weiss, C.H. (2007). Theory-Based Evaluation: Past, Present, and Future. New directions for

evaluation, 114, 68 – 81.

Wholey, J.S. (1987). Evaluability Assessment: Developing Program Theory. New Directions for

Program Evaluation, 33, 77–92.

Documents

Kapitel 12. Virkningsevaluering (Thomas Bredgaard, Julia ... · 1 Under udgivelse i T. Bredgaard, red. ”Evaluering af offentlig politik og organisationer”, Hans Reitzels forlag