Upload
others
View
2
Download
0
Embed Size (px)
Citation preview
Supplerende noter til vækstmodeller: 2a og 2b, december 2007 ved BO og FE
1
Eksempel på logistisk vækst med TI-Nspire CAS
Tabellen herunder viser udviklingen af USA's befolkning fra 1850-1910 hvor befolknings-tallet er angivet i millioner:
Vi har tidligere redegjort for at antallet af indbyggere i New York i perioden 1790-1900 tilnærmelsesvis voksede eksponentielt.
Da der i ovenstående eksempel er tale om en populationsudvikling er det oplagt at un-dersøge om befolkningstallet i USA fra 1790-1940 voksede eksponentielt.
Data kan vi selvfølgelig uden videre skrive ind i en tabel som vist, ligesom vi kan få tegnet en graf ved at trække variablene år (dvs. år efter 1790) ind som uafhængig variabel på førsteaksen og befolkningstallet ind som afhængig variabel på andenaksen i en Data og Statistik applikation:
Vi vil altså undersøge om sammenhængen kan beskrives en eksponentiel vækstmodel. Den er på formen
xy b a= ⋅ , dvs.
Supplerende noter til vækstmodeller: 2a og 2b, december 2007 ved BO og FE
2
Vi anvender de indbyggede regressionsmodeller til at bestemme den eksponentielle mo-del der bedst kan forklare sammenhængen mellem år og befolkningstallet, altså den mo-del hvor kvadratsummen for de logaritmisk transformerede data er nedbragt mest mu-ligt, dvs. der er i virkeligheden udført en lineær regression på de logaritmisk transforme-rede befolkningstal. Det er også grunden til at der er anført to residualer – residualerne RESID for de rå eksponentielle data og residualerne RESIDTRANS for de logaritmisk transformerede lineære data:
Regressionsmodellen kunne umiddelbart virke lovende idet forkla-ringsgraden er på hele 98,37 %. Men ser vi i stedet på den faktiske forklaringsgrad for de rå data:
så er den faktisk nede på 88.8%! Den udregnes som sædvanligt ved at se på forholdet mellem restvariationen og den totale variation:
Supplerende noter til vækstmodeller: 2a og 2b, december 2007 ved BO og FE
3
Men det er vigtigt at huske at man i sin vurdering af en model inkluderer en grafisk ana-lyse af modellen, inklusiv residualplot (forskellen mellem de observerede y-værdier og de teoretiske y-værdier):
De første 40-50 år efter 1790 ser den modellen ud til at kunne forklare sammenhængen godt hvilket understøttes af residualplotten. Men herefter ser det ikke så godt ud! Data-punkterne ligger fra 50-110 år efter 1790 alle over den teoretiske model og fra 140-150 år efter 1790 ligger datapunkterne under. Dette antyder pludselig at den eksponentielle model nok ikke er så god til at forklare sammenhængen mellem år og befolkningstal. Dette tydeliggøres af residualplottet der viser en klar systematik i resterne mellem den teoretiske model og datapunkterne fra 50-150 år efter 1790 idet residualerne ikke svin-ger tilfældigt op og ned. Residualerne når endda op på cirka -50 millioner hvilket må an-ses at være rigtig meget!
Vi kan dermed afvise vores forestilling om at befolkningstallet i USA fra 1790-1940 voksede eksponentielt.
Supplerende noter til vækstmodeller: 2a og 2b, december 2007 ved BO og FE
4
Logistisk regression
Det ville være oplagt herefter (idet der er tale om en populationsudvikling) at undersøge om sammenhængen kan beskrives ved en logistisk vækstmodel1:
1 b xcy
a e − ⋅=
+ ⋅
Hvor der altså indgår tre parametre a, b og c. Vi anvender igen de indbyggede regressi-onsmodeller til at bestemme den logistiske vækstmodel der ved mindste kvadratsum bedst kan forklare sammenhængen mellem år og befolkningstallet:
Ved regression er den logistiske model bestemt til:
Dermed er bæreevnen (mæthedniveauet) estimeret til millioner. Men inden vi ser nærmere på modellen vil vi kaste et lidt mere kritisk øje på den.
1 Der er tale om d = 0 modellen. Den findes også i en version, hvor man har lagt d til, dvs. på for-
men1
cy db xa e
= +− ⋅+ ⋅
, men den vil vi ikke se nærmere på her.
Supplerende noter til vækstmodeller: 2a og 2b, december 2007 ved BO og FE
5
Vi frembringer grafen for modellen sammen med datapunkterne og inkluderer et resi-dualplot:
Grafen for modellen ser rimelig overbevisende ud hvilket understøttes af residualplottet. Som det ses svinger residualerne tilfældigt op og ned og da ydermere den største afvigelse er nede på omkring 2.4 millioner må det siges af være et tilfredsstillende residualplot, i betragtning af størrelsen af de observerede befolkningstal. Der kunne være en tendens til at usikkerheden afhænger af tiden idet residualerne svinger mere og mere i takt med ti-den. Men vurderes residualerne relativt ses de større udsving ved store befolkningstal. F.eks. ses den største afvigelse på ca. 2.4 millioner i 1930 (140 år efter 1790) hvor be-folkningstallet er oplyst til at være 122.77 millioner!
Læg mærke til at vi ikke får oplyst en forklaringsgrad for modellen. Men hvad betyder det når det nu næsten er blevet rutine selv at regne den ud ☺. Regressionsmodellen forsøger at minimere restvariationen, R, udregnet som summen af de kvadratiske afvigelser. Den minimale restvariation sammenlignes med totalvariationen, T, som udregnes som kva-dratsummen af variationen omkring middelværdien af de observerede y-værdier (nul-hypotesen). Forklaringsgraden r2 er så givet ved 1 – R/T. Den måler, hvor stor en del af totalvariationen, vi kan forklare ved hjælp af vores model:
Som det ses, er forklaringsgraden helt oppe på 99,96 %, dvs. det er lykkes os at forklare 99,96 % af den observerede variation ved hjælp af vores logistiske model.
Supplerende noter til vækstmodeller: 2a og 2b, december 2007 ved BO og FE
6
Karakteristiske egenskaber ved logistisk vækst
Lad os nu prøve at se lidt nærmere på nogen af de karakteristiske egenskaber ved logi-stisk vækst med udgangspunkt i vores udledte regressionsmodel:
Som tidligere nævnt er bæreevnen (mæthedniveauet) estimeret til millioner. De øvrige to parametre er estimeret til og .
Væksten vil i starten (ved små x-værdier), hvor den endnu ikke er hæmmet, være tæt på at være eksponentiel, hvilket vi også har set indikationer på i vores tidligere modelunder-søgelse. Den ”uhæmmede” eksponentielle vækst er til at begynde med givet ved ligningen:
Tilsvarende ses at når populationen nærmere sig mæthedsniveauet eksponentielt på samme måde som populationen fjerner sig fra 0 i starten. Den ”hæmmede” vækst vil i slutningen (ved store x-værdier) være givet ved ligningen:
Hvis vi tegner graferne for den logistiske vækst , den
tilhørende uhæmmede startvækst og endelig den hæmmede slutvækst , kan vi netop se, hvordan den logi-stiske vækst til at begynde med vokser eksponentielt, for til slut at nærme sig mætheds-niveauet eksponentielt med den modsatte vækstrate:
Supplerende noter til vækstmodeller: 2a og 2b, december 2007 ved BO og FE
7
Vi kan nu tilføje vendepunktet som bestemt ved ligningen . Denne kan findes som
skæringen mellem grafen for den logistiske vækst og den vandrette linje .
Ved at indsætte en tangentlinje kan man desuden finde den maksimale hældning på gra-fen, dvs. det sted, hvor væksten foregår allerhurtigst (her bestemt til 1.48593):
Symbolske udregninger er også mulige. For at finde vendepunktet skal vi løse ligningen:
Vendepunktet ligger altså i x = 120.556. Heraf og ved differentiation kan vi finde den største hældning, altså hældningen i vendepunktet:
Supplerende noter til vækstmodeller: 2a og 2b, december 2007 ved BO og FE
8
Opgaver med logistisk vækst – indbyggede regressionsmodeller
Opgave 1
Tabellen herunder viser væksten af en solsikke (Reed and Holland, 1919):
Dag Højde i cm
7 17.93
14 36.36
21 67.76
28 98.10
35 131.00
42 169.50
49 205.50
56 228.30
63 247.10
70 250.50
77 253.80
84 254.50
A. Gør rede for at højden ikke vokser eksponentielt i den betragtede periode. Kom herunder ind på ligningen for den eksponentielle sammenhæng og residualplot. Beregn selv forklaringsgraden på ”rådata” og sammenlign med ”maskinens” forkla-ringsgrad.
B. Gør rede for, at højden med god tilnærmelse er vokset logistisk i den betragtede periode. Bestem herunder ligningen for den logistiske sammenhæng. Lav desuden et residualplot og beregn forklaringsgraden.
C. Bestem og kommentér mætningsniveauet (bæreevnen) for den logistiske vækst.
D. Bestem og kommentér vendepunktet for den logistiske vækst. Bestem og kom-mentér desuden hældningen af tangenten i vendepunktet.
E. Undersøg og kommentér karakteristika for den logistiske vækst. Kom herunder
ind på Startfasen b xstartcy ea
⋅= ⋅ og slutfasen b xsluty c c a e− ⋅= − ⋅ ⋅ .
Supplerende noter til vækstmodeller: 2a og 2b, december 2007 ved BO og FE
9
Opgave 2
Tabellen herunder viser udviklingen i antallet af bananfluer (Pearl 1925):
Dag Antal
0 22
9 39
12 105
15 152
18 225
21 390
25 499
27 547
29 618
33 791
36 877
39 938
A. Gør rede for at antallet af bananfluer ikke vokser eksponentielt i den betragtede periode. Kom herunder ind på ligningen for den eksponentielle sammenhæng og residualplot. Beregn selv forklaringsgraden på ”rådata” og sammenlign med ”ma-skinens” forklaringsgrad.
B. Gør rede for, at antallet af bananfluer med god tilnærmelse er vokset logistisk i den betragtede periode. Bestem herunder ligningen for den logistiske sammen-hæng. Lav desuden et residualplot og beregn forklaringsgraden.
C. Bestem og kommentér mætningsniveauet (bæreevnen) for den logistiske vækst.
D. Bestem og kommentér vendepunktet for den logistiske vækst. Bestem og kom-mentér desuden hældningen af tangenten i vendepunktet.
E. Undersøg og kommentér karakteristika for den logistiske vækst. Kom herunder
ind på Startfasen b xstartcy ea
⋅= ⋅ og slutfasen b xsluty c c a e− ⋅= − ⋅ ⋅ .
Supplerende noter til vækstmodeller: 2a og 2b, december 2007 ved BO og FE
10
Teori om logistisk vækst med TI-Nspire CAS:
Den logistiske vækstmodel2 bliver i TI-Nspire skrevet på formen:
1 b xcy
a e − ⋅=
+ ⋅
Der er altså tre parametre a, b og c, hvis betydning vi vil prøve at forstå. Men lad os først kridte banen op: Den logistiske vækstmodel er en udvidelse af den eksponentielle vækstmodel, som tager hensyn til, at enhver realistisk vækstmodel må være begrænset, fordi der i praksis altid kun kan være et begrænset antal ressourcer til rådighed for væk-sten. Så længe vi arbejder med små populationer mærker vi ikke disse begrænsninger og væksten foregår eksponentielt, men når den når en vis størrelse sætter begrænsningerne ind. Ofte vil væksten så flade ud og nærme sig et mæthedsniveau, bæreevnen c. Der er selvfølgelig mange muligheder for at modellere denne ’udfladning’, men den logistiske vækstmodel er særlig køn, fordi den er symmetrisk omkring et vendepunkt, når vi er nået halvvejs op til bæreevnen, dvs. væksten nærmer sig bæreevnen eksponentielt med præcis den modsatte vækstrate af den ubegrænsede startvækst.
Ser vi på grafen for det eksponentielle led b xa e − ⋅⋅ kan vi udnytte at det eksponentielle led er aftagende, hvorfor der gælder:
• Når x er meget stor (positiv) er det eksponentielle bidrag meget lille. • Når x er meget lille (negativ) er det eksponentielle bidrag meget stort.
Det får nu følgende konsekvenser for den logistiske vækst:
2 Der er tale om d = 0 modellen. Den findes også i en version, hvor man har lagt d til, dvs. på for-
men1
cy db xa e
= +− ⋅+ ⋅
, men den vil vi ikke se nærmere på her.
Supplerende noter til vækstmodeller: 2a og 2b, december 2007 ved BO og FE
11
Når x er meget lille (negativ) vokser det eksponentielle bidrag og dermed nævneren ube-grænset, hvorfor populationen (brøken) er meget lille, dvs. nærmer sig nul. Grafen for den logistiske vækst udgår derfor fra x-aksen.
Når x er meget stor (positiv) kan vi til sidst se helt bort fra det eksponentielle bidrag, hvorfor populationen y nærmer sig c, der netop er bæreevnen.
Populationen vokser altså fra 0 og nærmer sig bæreevnen c, dvs. værdimængden er det åbne interval fra 0 til c.
Men vi ser også at væksten til at begynde med er meget tæt på at være eksponentiel. Det følger af omskrivningen
1bx
bx bx
c c cy ea e a e a− −
= ≈ = ⋅+ ⋅ ⋅
når x er meget lille
idet det eksponentielle led dominerer for meget små x-værdier. Den uhæmmede ekspo-nentielle vækst til at begynde med er derfor givet ved ligningen
b xstart
cy ea
⋅= ⋅
Tilsvarende kan vi se, hvordan man nærmer sig mæthedsniveauet c, ved i stedet at se på forskellen mellem c og y. Vi finder da:
1 1 1
b x b x
bx bx bx
c c c a e c c a ec y ca e a e a e
− ⋅ − ⋅
− − −
+ ⋅ ⋅ − ⋅ ⋅− = − = =
+ ⋅ + ⋅ + ⋅
Men denne gang er det 1, der dominerer for meget store x-værdier, hvoraf vi slutter
1
bxbx
bx
c a ec y c a ea e
−−
−
⋅ ⋅− = ≈ ⋅ ⋅
+ ⋅ for x meget stor,
og dermed
b xsluty c c a e
− ⋅= − ⋅ ⋅
Vi ser derfor at populationen nærmer sig mæthedsniveauet eksponentielt på samme må-de som populationen fjernede sig fra 0 i starten.
Hvis vi tegner graferne for den logistiske vækst logistisk 1 b xcy
a e − ⋅=
+ ⋅, den tilhørende
uhæmmede startvækst b xstartcy ea
⋅= ⋅ og endelig den hæmmede slutvækst
b xsluty c c a e
− ⋅= − ⋅ ⋅ , kan vi netop se, hvordan den logistiske vækst til at begynde med vokser eksponentielt, for til slut at nærme sig mæthedsniveauet eksponentielt med den modsatte vækstrate:
Supplerende noter til vækstmodeller: 2a og 2b, december 2007 ved BO og FE
12
Graferne viser altså klart de tre faser i den logistiske vækst: Startfasen, hvor den følges af en eksponentiel vækst, mellemfasen, hvor væksten flader ud og passerer vendepunktet (med y = c/2), og slutfasen, hvor væksten nærmer sig mæthedsniveauet eksponentielt.
Læg også mærke til at man kan finde vendepunktet som skæringspunkt mellem grafen for den logistiske vækst og den vandrette linje y = c/2. Ved at indtegne en tangentlinje kan man ydermere nemt finde den maksimale hældning på grafen, dvs. det sted, hvor væksten foregår allerhurtigst.
Symbolske udregninger er også mulige. For at finde vendepunktet skal vi blot løse en ligning
Vendepunktet ligger altså i x = ln(a)/b.
For at finde den største hældning, dvs. hældningen i vendepunktet, skal vi arbejde lidt mere. Vi bruger differentiation til at finde hældningen, og derefter indsætter vi den fund-ne x-værdi:
Den maksimale væksthastighed er altså b·c/4.
Supplerende noter til vækstmodeller: 2a og 2b, december 2007 ved BO og FE
13
Logistisk regression ved parametertilpasning med TI-Nspire
I sidste lektion arbejde vi med tabellen herunder som viser udviklingen af USA's befolk-ning fra 1850-1910 hvor befolkningstallet er angivet i millioner:
I viste at vi kunne afvise vores forestilling om at befolkningstallet i USA fra 1790-1940 voksede eksponentielt. Sammenhængen kunne derimod tilnærmelsesvis beskrives ved en logistisk vækstmodel:
1 b xcy
a e − ⋅=
+ ⋅
Vi anvendte de indbyggede regressionsmodeller til at bestemme den logistiske vækst-model der ved mindste kvadratsum bedst kan forklarede sammenhængen mellem år og befolkningstallet. Her fik vi direkte parametrene a = 48.33, b = 0.0322 og c = 184.766 forærende.
Eksempel på parametertilpasning med TI-Nspire
I denne øvelse vil vi selv komme frem til parametrene a, b og c som er nævnt ovenfor. Det gøres ved først at omforme problemet til bestemmelse af bedste rette linje for y-data som den uafhængige variabel og væksthastighed som den afhængige. For logistisk vækst gæl-der der nemlig denne sammenhæng – for eksponentielle sammenhænge gælder der at væksthastigheden i forhold til y-data er konstant. Ud fra bedste rette linje mellem y-data og væksthastigheden kan vi estimere b og c. Herefter er der kun a parameteren tilbage som kan bestemmes ved hjælp af en skyder og mindste kvadratsum.
Beviset for at denne procedure giver os parametrene gennemgås til sidst. Lad os først se på proceduren.
Opret en tabel for årstal, år efter 1790 og befolkningstal. Bemærk at årstallene springer med et interval på 10 år – det skal vi bruge senere! Herefter udregnes vækstraten som er bestemt ved ligningen:
Supplerende noter til vækstmodeller: 2a og 2b, december 2007 ved BO og FE
14
Det vi her har udregnet er altså som vi i tabellen kan se ikke er kon-stant!
Bemærk at første celle ikke er defineret! Derfor opretter vi to nye variable ydata og rdata for henholdsvis befolkningstallet og vækstraten. Markér og kopier data fra befolknings-tal og vækstraten idet vi undlader første række (og dermed den vores udefinerede vækstrate):
Ved at lave et dataplot for ydata som uafhængig variabel og rdata som afhængig variabel ser vi at der med god tilnærmelse kunne gælder en lineær sammenhæng mellem ydata og rdata:
Estimering af parametrene b og c
Ud fra hældningen (stat.m) og konstantleddet (stat.b) for denne lineære regression er det muligt at estimere parametrene b og c idet vi nu skal huske på at årstallene springer med et interval på h = 10 år.
Parameteren b for vores logistiske vækst kan vi bestemme ved hjælp af følgende formel:
Supplerende noter til vækstmodeller: 2a og 2b, december 2007 ved BO og FE
15
Vi har dermed estimeret parameteren b = 0.031537 som afviger lidt fra den værdi den indbyggede regressionsmodel kom frem til (her var b = 0.0322).
Bærerevnen c bestemmes ved udregning af formlen:
Dermed har vi estimeret parameteren c = 187.371 som også afviger lidt fra den værdi den indbyggede regressionsmodel kom frem til (der var c = 184.766).
Vi er nu nået frem til følgende bud på en logistisk sammenhæng hvor vi nu kun mangler at estimere én parameter, nemlig a:
Estimering af parameteren a
Resten kører nu næsen som en kendt rutine:
a) Lav en skyder for parameteren a i et Graf og Geometriværktøj… husk at lagre den!
b) Lav et dataplot som inkluderer den logistiske model i et Data og Statistik værktøj.
c) Lav en udregning til bestemmelse af mindste kvadratsum i en tabel.
Supplerende noter til vækstmodeller: 2a og 2b, december 2007 ved BO og FE
16
Dermed er vores bedste bud på en logistisk sammenhæng:
Supplerende noter til vækstmodeller: 2a og 2b, december 2007 ved BO og FE
17
Vurdering af den logistiske model
Herefter vurderer vi modellen som vanligt idet vi laver et residualplot og beregner forkla-ringsgraden:
Grafen for modellen ser rimelig overbevisende ud hvilket understøttes af residualplottet. Som det ses svinger residualerne tilfældigt op og ned og da ydermere den største afvigelse er nede på omkring 3 millioner må det siges af være et tilfredsstillende residualplot, i be-tragtning af størrelsen af de observerede befolkningstal. Der kunne være en tendens til at usikkerheden afhænger af tiden idet residualerne svinger mere og mere i takt med tiden. Men vurderes residualerne relativt ses de større udsving ved store befolkningstal. F.eks. ses den største afvigelse på ca. 3 millioner i 1930 (140 år efter 1790) hvor befolkningstal-let er oplyst til at være 122.77 millioner!
Forklaringsgraden r2 er så givet ved 1 – R/T. Den måler, hvor stor en del af totalvariatio-nen, vi kan forklare ved hjælp af vores model:
Som det ses, er forklaringsgraden helt oppe på 99,96 %, dvs. det er lykkes os at forklare 99,96 % af den observerede variation ved hjælp af vores logistiske model.
Supplerende noter til vækstmodeller: 2a og 2b, december 2007 ved BO og FE
18
Bevis for anvendte sammenhænge
Beviset gennemføres ved hjælp af TI-Nspire.
Supplerende noter til vækstmodeller: 2a og 2b, december 2007 ved BO og FE
19
Opgaver med logistisk vækst – parametertilpasning
Opgave
Tabellen herunder viser væksten af en solsikke (Reed and Holland, 1919):
Dag Højde i cm
7 17.93
14 36.36
21 67.76
28 98.10
35 131.00
42 169.50
49 205.50
56 228.30
63 247.10
70 250.50
77 253.80
84 254.50
Gør ved hjælp at parametertilpasning (ovennævnte metode) rede for, at højden med god tilnærmelse er vokset logistisk i den betragtede periode. Inkludér residualplot og forkla-ringsgrad i vurderingen af modellen.