19
Supplerende noter til vækstmodeller: 2a og 2b, december 2007 ved BO og FE 1 Eksempel på logistisk vækst med TI-Nspire CAS Tabellen herunder viser udviklingen af USA's befolkning fra 1850-1910 hvor befolknings- tallet er angivet i millioner: Vi har tidligere redegjort for at antallet af indbyggere i New York i perioden 1790-1900 tilnærmelsesvis voksede eksponentielt. Da der i ovenstående eksempel er tale om en populationsudvikling er det oplagt at un- dersøge om befolkningstallet i USA fra 1790-1940 voksede eksponentielt. Data kan vi selvfølgelig uden videre skrive ind i en tabel som vist, ligesom vi kan få tegnet en graf ved at trække variablene år (dvs. år efter 1790) ind som uafhængig variabel på førsteaksen og befolkningstallet ind som afhængig variabel på andenaksen i en Data og Statistik applikation: Vi vil altså undersøge om sammenhængen kan beskrives en eksponentiel vækstmodel. Den er på formen x y ba = , dvs.

Eksempel på logistisk vækst med TI-Nspire CAS€¦ · Supplerende noter til vækstmodeller: 2a og 2b, december 2007 ved BO og FE 1 Eksempel på logistisk vækst med TI-Nspire CAS

  • Upload
    others

  • View
    2

  • Download
    0

Embed Size (px)

Citation preview

  • Supplerende noter til vækstmodeller: 2a og 2b, december 2007 ved BO og FE 

    1  

    Eksempel på logistisk vækst med TI-Nspire CAS

    Tabellen herunder viser udviklingen af USA's befolkning fra 1850-1910 hvor befolknings-tallet er angivet i millioner:

    Vi har tidligere redegjort for at antallet af indbyggere i New York i perioden 1790-1900 tilnærmelsesvis voksede eksponentielt.

    Da der i ovenstående eksempel er tale om en populationsudvikling er det oplagt at un-dersøge om befolkningstallet i USA fra 1790-1940 voksede eksponentielt.

    Data kan vi selvfølgelig uden videre skrive ind i en tabel som vist, ligesom vi kan få tegnet en graf ved at trække variablene år (dvs. år efter 1790) ind som uafhængig variabel på førsteaksen og befolkningstallet ind som afhængig variabel på andenaksen i en Data og Statistik applikation:

    Vi vil altså undersøge om sammenhængen kan beskrives en eksponentiel vækstmodel. Den er på formen

    xy b a= ⋅ , dvs.

  • Supplerende noter til vækstmodeller: 2a og 2b, december 2007 ved BO og FE 

    2  

    Vi anvender de indbyggede regressionsmodeller til at bestemme den eksponentielle mo-del der bedst kan forklare sammenhængen mellem år og befolkningstallet, altså den mo-del hvor kvadratsummen for de logaritmisk transformerede data er nedbragt mest mu-ligt, dvs. der er i virkeligheden udført en lineær regression på de logaritmisk transforme-rede befolkningstal. Det er også grunden til at der er anført to residualer – residualerne RESID for de rå eksponentielle data og residualerne RESIDTRANS for de logaritmisk transformerede lineære data:

    Regressionsmodellen kunne umiddelbart virke lovende idet forkla-ringsgraden er på hele 98,37 %. Men ser vi i stedet på den faktiske forklaringsgrad for de rå data:

    så er den faktisk nede på 88.8%! Den udregnes som sædvanligt ved at se på forholdet mellem restvariationen og den totale variation:

  • Supplerende noter til vækstmodeller: 2a og 2b, december 2007 ved BO og FE 

    3  

    Men det er vigtigt at huske at man i sin vurdering af en model inkluderer en grafisk ana-lyse af modellen, inklusiv residualplot (forskellen mellem de observerede y-værdier og de teoretiske y-værdier):

    De første 40-50 år efter 1790 ser den modellen ud til at kunne forklare sammenhængen godt hvilket understøttes af residualplotten. Men herefter ser det ikke så godt ud! Data-punkterne ligger fra 50-110 år efter 1790 alle over den teoretiske model og fra 140-150 år efter 1790 ligger datapunkterne under. Dette antyder pludselig at den eksponentielle model nok ikke er så god til at forklare sammenhængen mellem år og befolkningstal. Dette tydeliggøres af residualplottet der viser en klar systematik i resterne mellem den teoretiske model og datapunkterne fra 50-150 år efter 1790 idet residualerne ikke svin-ger tilfældigt op og ned. Residualerne når endda op på cirka -50 millioner hvilket må an-ses at være rigtig meget!

    Vi kan dermed afvise vores forestilling om at befolkningstallet i USA fra 1790-1940 voksede eksponentielt.

  • Supplerende noter til vækstmodeller: 2a og 2b, december 2007 ved BO og FE 

    4  

    Logistisk regression

    Det ville være oplagt herefter (idet der er tale om en populationsudvikling) at undersøge om sammenhængen kan beskrives ved en logistisk vækstmodel1:

    1 b xcy

    a e − ⋅=

    + ⋅

    Hvor der altså indgår tre parametre a, b og c. Vi anvender igen de indbyggede regressi-onsmodeller til at bestemme den logistiske vækstmodel der ved mindste kvadratsum bedst kan forklare sammenhængen mellem år og befolkningstallet:

    Ved regression er den logistiske model bestemt til:

    Dermed er bæreevnen (mæthedniveauet) estimeret til millioner. Men inden vi ser nærmere på modellen vil vi kaste et lidt mere kritisk øje på den.

                                                                1 Der er tale om d = 0 modellen. Den findes også i en version, hvor man har lagt d til, dvs. på for-

    men1

    cy db xa e

    = +− ⋅+ ⋅

    , men den vil vi ikke se nærmere på her.

  • Supplerende noter til vækstmodeller: 2a og 2b, december 2007 ved BO og FE 

    5  

    Vi frembringer grafen for modellen sammen med datapunkterne og inkluderer et resi-dualplot:

    Grafen for modellen ser rimelig overbevisende ud hvilket understøttes af residualplottet. Som det ses svinger residualerne tilfældigt op og ned og da ydermere den største afvigelse er nede på omkring 2.4 millioner må det siges af være et tilfredsstillende residualplot, i betragtning af størrelsen af de observerede befolkningstal. Der kunne være en tendens til at usikkerheden afhænger af tiden idet residualerne svinger mere og mere i takt med ti-den. Men vurderes residualerne relativt ses de større udsving ved store befolkningstal. F.eks. ses den største afvigelse på ca. 2.4 millioner i 1930 (140 år efter 1790) hvor be-folkningstallet er oplyst til at være 122.77 millioner!

    Læg mærke til at vi ikke får oplyst en forklaringsgrad for modellen. Men hvad betyder det når det nu næsten er blevet rutine selv at regne den ud ☺. Regressionsmodellen forsøger at minimere restvariationen, R, udregnet som summen af de kvadratiske afvigelser. Den minimale restvariation sammenlignes med totalvariationen, T, som udregnes som kva-dratsummen af variationen omkring middelværdien af de observerede y-værdier (nul-hypotesen). Forklaringsgraden r2 er så givet ved 1 – R/T. Den måler, hvor stor en del af totalvariationen, vi kan forklare ved hjælp af vores model:

    Som det ses, er forklaringsgraden helt oppe på 99,96 %, dvs. det er lykkes os at forklare 99,96 % af den observerede variation ved hjælp af vores logistiske model.

  • Supplerende noter til vækstmodeller: 2a og 2b, december 2007 ved BO og FE 

    6  

    Karakteristiske egenskaber ved logistisk vækst

    Lad os nu prøve at se lidt nærmere på nogen af de karakteristiske egenskaber ved logi-stisk vækst med udgangspunkt i vores udledte regressionsmodel:

    Som tidligere nævnt er bæreevnen (mæthedniveauet) estimeret til millioner. De øvrige to parametre er estimeret til og .

    Væksten vil i starten (ved små x-værdier), hvor den endnu ikke er hæmmet, være tæt på at være eksponentiel, hvilket vi også har set indikationer på i vores tidligere modelunder-søgelse. Den ”uhæmmede” eksponentielle vækst er til at begynde med givet ved ligningen:

    Tilsvarende ses at når populationen nærmere sig mæthedsniveauet eksponentielt på samme måde som populationen fjerner sig fra 0 i starten. Den ”hæmmede” vækst vil i slutningen (ved store x-værdier) være givet ved ligningen:

    Hvis vi tegner graferne for den logistiske vækst , den

    tilhørende uhæmmede startvækst og endelig den hæmmede slutvækst , kan vi netop se, hvordan den logi-stiske vækst til at begynde med vokser eksponentielt, for til slut at nærme sig mætheds-niveauet eksponentielt med den modsatte vækstrate:

  • Supplerende noter til vækstmodeller: 2a og 2b, december 2007 ved BO og FE 

    7  

    Vi kan nu tilføje vendepunktet som bestemt ved ligningen . Denne kan findes som

    skæringen mellem grafen for den logistiske vækst og den vandrette linje .

    Ved at indsætte en tangentlinje kan man desuden finde den maksimale hældning på gra-fen, dvs. det sted, hvor væksten foregår allerhurtigst (her bestemt til 1.48593):

    Symbolske udregninger er også mulige. For at finde vendepunktet skal vi løse ligningen:

    Vendepunktet ligger altså i x = 120.556. Heraf og ved differentiation kan vi finde den største hældning, altså hældningen i vendepunktet:

  • Supplerende noter til vækstmodeller: 2a og 2b, december 2007 ved BO og FE 

    8  

    Opgaver med logistisk vækst – indbyggede regressionsmodeller

    Opgave 1

    Tabellen herunder viser væksten af en solsikke (Reed and Holland, 1919):

    Dag Højde i cm

    7 17.93

    14 36.36

    21 67.76

    28 98.10

    35 131.00

    42 169.50

    49 205.50

    56 228.30

    63 247.10

    70 250.50

    77 253.80

    84 254.50

    A. Gør rede for at højden ikke vokser eksponentielt i den betragtede periode. Kom herunder ind på ligningen for den eksponentielle sammenhæng og residualplot. Beregn selv forklaringsgraden på ”rådata” og sammenlign med ”maskinens” forkla-ringsgrad.

    B. Gør rede for, at højden med god tilnærmelse er vokset logistisk i den betragtede periode. Bestem herunder ligningen for den logistiske sammenhæng. Lav desuden et residualplot og beregn forklaringsgraden.

    C. Bestem og kommentér mætningsniveauet (bæreevnen) for den logistiske vækst.

    D. Bestem og kommentér vendepunktet for den logistiske vækst. Bestem og kom-mentér desuden hældningen af tangenten i vendepunktet.

    E. Undersøg og kommentér karakteristika for den logistiske vækst. Kom herunder

    ind på Startfasen b xstartcy ea

    ⋅= ⋅ og slutfasen b xsluty c c a e− ⋅= − ⋅ ⋅ .

  • Supplerende noter til vækstmodeller: 2a og 2b, december 2007 ved BO og FE 

    9  

    Opgave 2

    Tabellen herunder viser udviklingen i antallet af bananfluer (Pearl 1925):

    Dag Antal

    0 22

    9 39

    12 105

    15 152

    18 225

    21 390

    25 499

    27 547

    29 618

    33 791

    36 877

    39 938

    A. Gør rede for at antallet af bananfluer ikke vokser eksponentielt i den betragtede periode. Kom herunder ind på ligningen for den eksponentielle sammenhæng og residualplot. Beregn selv forklaringsgraden på ”rådata” og sammenlign med ”ma-skinens” forklaringsgrad.

    B. Gør rede for, at antallet af bananfluer med god tilnærmelse er vokset logistisk i den betragtede periode. Bestem herunder ligningen for den logistiske sammen-hæng. Lav desuden et residualplot og beregn forklaringsgraden.

    C. Bestem og kommentér mætningsniveauet (bæreevnen) for den logistiske vækst.

    D. Bestem og kommentér vendepunktet for den logistiske vækst. Bestem og kom-mentér desuden hældningen af tangenten i vendepunktet.

    E. Undersøg og kommentér karakteristika for den logistiske vækst. Kom herunder

    ind på Startfasen b xstartcy ea

    ⋅= ⋅ og slutfasen b xsluty c c a e− ⋅= − ⋅ ⋅ .

  • Supplerende noter til vækstmodeller: 2a og 2b, december 2007 ved BO og FE 

    10  

    Teori om logistisk vækst med TI-Nspire CAS:

    Den logistiske vækstmodel2 bliver i TI-Nspire skrevet på formen:

    1 b xcy

    a e − ⋅=

    + ⋅

    Der er altså tre parametre a, b og c, hvis betydning vi vil prøve at forstå. Men lad os først kridte banen op: Den logistiske vækstmodel er en udvidelse af den eksponentielle vækstmodel, som tager hensyn til, at enhver realistisk vækstmodel må være begrænset, fordi der i praksis altid kun kan være et begrænset antal ressourcer til rådighed for væk-sten. Så længe vi arbejder med små populationer mærker vi ikke disse begrænsninger og væksten foregår eksponentielt, men når den når en vis størrelse sætter begrænsningerne ind. Ofte vil væksten så flade ud og nærme sig et mæthedsniveau, bæreevnen c. Der er selvfølgelig mange muligheder for at modellere denne ’udfladning’, men den logistiske vækstmodel er særlig køn, fordi den er symmetrisk omkring et vendepunkt, når vi er nået halvvejs op til bæreevnen, dvs. væksten nærmer sig bæreevnen eksponentielt med præcis den modsatte vækstrate af den ubegrænsede startvækst.

    Ser vi på grafen for det eksponentielle led b xa e − ⋅⋅ kan vi udnytte at det eksponentielle led er aftagende, hvorfor der gælder:

    • Når x er meget stor (positiv) er det eksponentielle bidrag meget lille. • Når x er meget lille (negativ) er det eksponentielle bidrag meget stort.

    Det får nu følgende konsekvenser for den logistiske vækst:

                                                                2 Der er tale om d = 0 modellen. Den findes også i en version, hvor man har lagt d til, dvs. på for-

    men1

    cy db xa e

    = +− ⋅+ ⋅

    , men den vil vi ikke se nærmere på her.

  • Supplerende noter til vækstmodeller: 2a og 2b, december 2007 ved BO og FE 

    11  

    Når x er meget lille (negativ) vokser det eksponentielle bidrag og dermed nævneren ube-grænset, hvorfor populationen (brøken) er meget lille, dvs. nærmer sig nul. Grafen for den logistiske vækst udgår derfor fra x-aksen.

    Når x er meget stor (positiv) kan vi til sidst se helt bort fra det eksponentielle bidrag, hvorfor populationen y nærmer sig c, der netop er bæreevnen.

    Populationen vokser altså fra 0 og nærmer sig bæreevnen c, dvs. værdimængden er det åbne interval fra 0 til c.

    Men vi ser også at væksten til at begynde med er meget tæt på at være eksponentiel. Det følger af omskrivningen

    1bx

    bx bx

    c c cy ea e a e a− −

    = ≈ = ⋅+ ⋅ ⋅

    når x er meget lille

    idet det eksponentielle led dominerer for meget små x-værdier. Den uhæmmede ekspo-nentielle vækst til at begynde med er derfor givet ved ligningen

    b xstart

    cy ea

    ⋅= ⋅

    Tilsvarende kan vi se, hvordan man nærmer sig mæthedsniveauet c, ved i stedet at se på forskellen mellem c og y. Vi finder da:

    1 1 1

    b x b x

    bx bx bx

    c c c a e c c a ec y ca e a e a e

    − ⋅ − ⋅

    − − −

    + ⋅ ⋅ − ⋅ ⋅− = − = =

    + ⋅ + ⋅ + ⋅

    Men denne gang er det 1, der dominerer for meget store x-værdier, hvoraf vi slutter

    1

    bxbx

    bx

    c a ec y c a ea e

    −−

    ⋅ ⋅− = ≈ ⋅ ⋅

    + ⋅ for x meget stor,

    og dermed

    b xsluty c c a e

    − ⋅= − ⋅ ⋅

    Vi ser derfor at populationen nærmer sig mæthedsniveauet eksponentielt på samme må-de som populationen fjernede sig fra 0 i starten.

    Hvis vi tegner graferne for den logistiske vækst logistisk 1 b xcy

    a e − ⋅=

    + ⋅, den tilhørende

    uhæmmede startvækst b xstartcy ea

    ⋅= ⋅ og endelig den hæmmede slutvækst

    b xsluty c c a e

    − ⋅= − ⋅ ⋅ , kan vi netop se, hvordan den logistiske vækst til at begynde med vokser eksponentielt, for til slut at nærme sig mæthedsniveauet eksponentielt med den modsatte vækstrate:

  • Supplerende noter til vækstmodeller: 2a og 2b, december 2007 ved BO og FE 

    12  

    Graferne viser altså klart de tre faser i den logistiske vækst: Startfasen, hvor den følges af en eksponentiel vækst, mellemfasen, hvor væksten flader ud og passerer vendepunktet (med y = c/2), og slutfasen, hvor væksten nærmer sig mæthedsniveauet eksponentielt.

    Læg også mærke til at man kan finde vendepunktet som skæringspunkt mellem grafen for den logistiske vækst og den vandrette linje y = c/2. Ved at indtegne en tangentlinje kan man ydermere nemt finde den maksimale hældning på grafen, dvs. det sted, hvor væksten foregår allerhurtigst.

    Symbolske udregninger er også mulige. For at finde vendepunktet skal vi blot løse en ligning

    Vendepunktet ligger altså i x = ln(a)/b.

    For at finde den største hældning, dvs. hældningen i vendepunktet, skal vi arbejde lidt mere. Vi bruger differentiation til at finde hældningen, og derefter indsætter vi den fund-ne x-værdi:

    Den maksimale væksthastighed er altså b·c/4.

  • Supplerende noter til vækstmodeller: 2a og 2b, december 2007 ved BO og FE 

    13  

    Logistisk regression ved parametertilpasning med TI-Nspire

    I sidste lektion arbejde vi med tabellen herunder som viser udviklingen af USA's befolk-ning fra 1850-1910 hvor befolkningstallet er angivet i millioner:

    I viste at vi kunne afvise vores forestilling om at befolkningstallet i USA fra 1790-1940 voksede eksponentielt. Sammenhængen kunne derimod tilnærmelsesvis beskrives ved en logistisk vækstmodel:

    1 b xcy

    a e − ⋅=

    + ⋅

    Vi anvendte de indbyggede regressionsmodeller til at bestemme den logistiske vækst-model der ved mindste kvadratsum bedst kan forklarede sammenhængen mellem år og befolkningstallet. Her fik vi direkte parametrene a = 48.33, b = 0.0322 og c = 184.766 forærende.

    Eksempel på parametertilpasning med TI-Nspire

    I denne øvelse vil vi selv komme frem til parametrene a, b og c som er nævnt ovenfor. Det gøres ved først at omforme problemet til bestemmelse af bedste rette linje for y-data som den uafhængige variabel og væksthastighed som den afhængige. For logistisk vækst gæl-der der nemlig denne sammenhæng – for eksponentielle sammenhænge gælder der at væksthastigheden i forhold til y-data er konstant. Ud fra bedste rette linje mellem y-data og væksthastigheden kan vi estimere b og c. Herefter er der kun a parameteren tilbage som kan bestemmes ved hjælp af en skyder og mindste kvadratsum.

    Beviset for at denne procedure giver os parametrene gennemgås til sidst. Lad os først se på proceduren.

    Opret en tabel for årstal, år efter 1790 og befolkningstal. Bemærk at årstallene springer med et interval på 10 år – det skal vi bruge senere! Herefter udregnes vækstraten som er bestemt ved ligningen:

  • Supplerende noter til vækstmodeller: 2a og 2b, december 2007 ved BO og FE 

    14  

    Det vi her har udregnet er altså som vi i tabellen kan se ikke er kon-stant!

    Bemærk at første celle ikke er defineret! Derfor opretter vi to nye variable ydata og rdata for henholdsvis befolkningstallet og vækstraten. Markér og kopier data fra befolknings-tal og vækstraten idet vi undlader første række (og dermed den vores udefinerede vækstrate):

    Ved at lave et dataplot for ydata som uafhængig variabel og rdata som afhængig variabel ser vi at der med god tilnærmelse kunne gælder en lineær sammenhæng mellem ydata og rdata:

    Estimering af parametrene b og c

    Ud fra hældningen (stat.m) og konstantleddet (stat.b) for denne lineære regression er det muligt at estimere parametrene b og c idet vi nu skal huske på at årstallene springer med et interval på h = 10 år.

    Parameteren b for vores logistiske vækst kan vi bestemme ved hjælp af følgende formel:

  • Supplerende noter til vækstmodeller: 2a og 2b, december 2007 ved BO og FE 

    15  

    Vi har dermed estimeret parameteren b = 0.031537 som afviger lidt fra den værdi den indbyggede regressionsmodel kom frem til (her var b = 0.0322).

    Bærerevnen c bestemmes ved udregning af formlen:

    Dermed har vi estimeret parameteren c = 187.371 som også afviger lidt fra den værdi den indbyggede regressionsmodel kom frem til (der var c = 184.766).

    Vi er nu nået frem til følgende bud på en logistisk sammenhæng hvor vi nu kun mangler at estimere én parameter, nemlig a:

    Estimering af parameteren a

    Resten kører nu næsen som en kendt rutine:

    a) Lav en skyder for parameteren a i et Graf og Geometriværktøj… husk at lagre den!

    b) Lav et dataplot som inkluderer den logistiske model i et Data og Statistik værktøj.

    c) Lav en udregning til bestemmelse af mindste kvadratsum i en tabel.

  • Supplerende noter til vækstmodeller: 2a og 2b, december 2007 ved BO og FE 

    16  

    Dermed er vores bedste bud på en logistisk sammenhæng:

  • Supplerende noter til vækstmodeller: 2a og 2b, december 2007 ved BO og FE 

    17  

    Vurdering af den logistiske model

    Herefter vurderer vi modellen som vanligt idet vi laver et residualplot og beregner forkla-ringsgraden:

    Grafen for modellen ser rimelig overbevisende ud hvilket understøttes af residualplottet. Som det ses svinger residualerne tilfældigt op og ned og da ydermere den største afvigelse er nede på omkring 3 millioner må det siges af være et tilfredsstillende residualplot, i be-tragtning af størrelsen af de observerede befolkningstal. Der kunne være en tendens til at usikkerheden afhænger af tiden idet residualerne svinger mere og mere i takt med tiden. Men vurderes residualerne relativt ses de større udsving ved store befolkningstal. F.eks. ses den største afvigelse på ca. 3 millioner i 1930 (140 år efter 1790) hvor befolkningstal-let er oplyst til at være 122.77 millioner!

    Forklaringsgraden r2 er så givet ved 1 – R/T. Den måler, hvor stor en del af totalvariatio-nen, vi kan forklare ved hjælp af vores model:

    Som det ses, er forklaringsgraden helt oppe på 99,96 %, dvs. det er lykkes os at forklare 99,96 % af den observerede variation ved hjælp af vores logistiske model.

  • Supplerende noter til vækstmodeller: 2a og 2b, december 2007 ved BO og FE 

    18  

    Bevis for anvendte sammenhænge

    Beviset gennemføres ved hjælp af TI-Nspire.

  • Supplerende noter til vækstmodeller: 2a og 2b, december 2007 ved BO og FE 

    19  

    Opgaver med logistisk vækst – parametertilpasning

    Opgave

    Tabellen herunder viser væksten af en solsikke (Reed and Holland, 1919):

    Dag Højde i cm

    7 17.93

    14 36.36

    21 67.76

    28 98.10

    35 131.00

    42 169.50

    49 205.50

    56 228.30

    63 247.10

    70 250.50

    77 253.80

    84 254.50

    Gør ved hjælp at parametertilpasning (ovennævnte metode) rede for, at højden med god tilnærmelse er vokset logistisk i den betragtede periode. Inkludér residualplot og forkla-ringsgrad i vurderingen af modellen.