35
METODY STATYSTYCZNE W BIOLOGII 1. Wykład wstępny 2. Populacje i próby danych 3. Testowanie hipotez i estymacja parametrów 4. Planowanie eksperymentów biologicznych 5. Najczęściej wykorzystywane testy statystyczne 6. Podsumowanie materiału, wspólna analiza przykładów, dyskusja 7. Regresja liniowa 8. Regresja nieliniowa 9. Określenie jakości dopasowania równania regresji liniowej i nieliniowej 10. Korelacja 11. Elementy statystycznego modelowania danych - EDA 12. Porównywanie modeli 13. Analiza wariancji 14. Analiza kowariancji 15. Podsumowanie materiału, wspólna analiza przykładów, dyskusja

METODY STATYSTYCZNE W BIOLOGII - theta.edu.pltheta.edu.pl/wp-content/uploads/2020/01/metodystatystyczne_11.pdf · 3. Testowanie hipotez i estymacja parametrów 4. Planowanie eksperymentów

  • Upload
    others

  • View
    1

  • Download
    0

Embed Size (px)

Citation preview

Page 1: METODY STATYSTYCZNE W BIOLOGII - theta.edu.pltheta.edu.pl/wp-content/uploads/2020/01/metodystatystyczne_11.pdf · 3. Testowanie hipotez i estymacja parametrów 4. Planowanie eksperymentów

METODY STATYSTYCZNE W BIOLOGII

1. Wykład wstępny

2. Populacje i próby danych

3. Testowanie hipotez i estymacja parametrów

4. Planowanie eksperymentów biologicznych

5. Najczęściej wykorzystywane testy statystyczne

6. Podsumowanie materiału, wspólna analiza przykładów, dyskusja

7. Regresja liniowa

8. Regresja nieliniowa

9. Określenie jakości dopasowania równania regresji liniowej i nieliniowej

10. Korelacja

11. Elementy statystycznego modelowania danych - EDA

12. Porównywanie modeli

13. Analiza wariancji

14. Analiza kowariancji

15. Podsumowanie materiału, wspólna analiza przykładów, dyskusja

Page 2: METODY STATYSTYCZNE W BIOLOGII - theta.edu.pltheta.edu.pl/wp-content/uploads/2020/01/metodystatystyczne_11.pdf · 3. Testowanie hipotez i estymacja parametrów 4. Planowanie eksperymentów

Wstęp

1. Konfirmatywna, a eksploratywna analiza danych

2. Przykłady metodyki EDA

• Box plot

• QQ plot

• Analiza klasyfikacyjna

• Analiza skupień

• Uczenie maszynowe

Copyright ©2019, Joanna Szyda

Page 3: METODY STATYSTYCZNE W BIOLOGII - theta.edu.pltheta.edu.pl/wp-content/uploads/2020/01/metodystatystyczne_11.pdf · 3. Testowanie hipotez i estymacja parametrów 4. Planowanie eksperymentów

Eksploratywna analiza danych Konfirmatywna analiza danych

Statystyczne Modelowanie Danych

• Exploratory data analysis • Confirmatory data analysis

IND P.0 P.132 P.265 P.397 P.530

346 0.2999 1.3938 4.047 8.9365 14.4663

347 0.4265 1.9578 6.6809 15.9458 27.3269

348 0.4991 2.0284 6.0664 13.7166 22.7103

349 0.1739 1.2515 4.4695 11.0793 18.7735

350 0.3712 1.8365 5.9575 14.4277 23.8408

351 0.2727 1.3336 3.9884 8.7238 14.138

352 1.1542 3.7294 9.8721 20.2459 32.292

353 0.3175 1.7614 5.678 13.824 22.7556

354 0.1726 1.2156 4.464 11.2814 19.679

355 0.6935 2.8703 8.4873 19.1791 30.8544

356 0.5498 2.3433 7.2887 17.2022 28.4123

357 0.7276 2.5778 7.4177 16.2656 25.7423

358 0.5879 2.3876 7.0633 17.2328 28.7312

359 0.4806 2.339 7.7452 18.9444 31.8284

360 0.481 2.2166 7.087 17.0398 27.9577

361 0.2769 1.66 5.6707 14.9897 25.8092

362 0.7281 2.6245 7.3139 16.0735 26.359

363 0.3418 1.6791 5.6198 13.568 22.6985

364 0.3764 1.7024 5.2701 12.5866 21.5353

365 0.5849 2.1908 6.2308 13.3812 21.5758

Copyright ©2019, Joanna Szyda

Page 4: METODY STATYSTYCZNE W BIOLOGII - theta.edu.pltheta.edu.pl/wp-content/uploads/2020/01/metodystatystyczne_11.pdf · 3. Testowanie hipotez i estymacja parametrów 4. Planowanie eksperymentów

SAS – INTERPRETACJAWYNIKÓW

0

5

10

15

20

LEPR BTN DGAT LEP

LRT

gen

• H0: gen nie wykazuje powiązania z cechą mi = 0

• H1: gen wykazuje powiązanie z cechą mi 0

• założone maksymalne prawdopodobieństwo błędu aMAX = 0.01

• LRT (LEPR) =0.80

• LRT (BTN) =9.65

• LRT (DGAT) =27.18

• LRT (LEP) =5.-1

• aT(LEPR) =0.3996

• aT(BTN) =0.0019

• aT(DGAT) =0.0000002

• aT(LEP) =0.0252

• LEPR =H0

• BTN =H1

• DGAT =H1

• LEP =H0

PODEJŚCIE KLASYCZNE

Konfirmatywna Analiza Danych

• sformułowanie hipotezy

• określenie maksymalnego błędu I-go rodzaju

• wybór i obliczenie testu statystycznego

• obliczenie błędu I-go rodzaju

• decyzja dotycząca hipotezy

Copyright ©2019, Joanna Szyda

Page 5: METODY STATYSTYCZNE W BIOLOGII - theta.edu.pltheta.edu.pl/wp-content/uploads/2020/01/metodystatystyczne_11.pdf · 3. Testowanie hipotez i estymacja parametrów 4. Planowanie eksperymentów

EDA

Eksploratywna Analiza Danych

• John Tukey

• brak z góry założonej hipotezy

• wykorzystanie różnych narzędzi

− statystycznych− graficznych

• eksploracja struktury danych

• data mining

• wyróżnienie najważniejszych zmiennych

• wyróżnienie odstających obserwacji

Copyright ©2019, Joanna Szyda

Page 6: METODY STATYSTYCZNE W BIOLOGII - theta.edu.pltheta.edu.pl/wp-content/uploads/2020/01/metodystatystyczne_11.pdf · 3. Testowanie hipotez i estymacja parametrów 4. Planowanie eksperymentów

Przykłady Analizy Graficznej

Page 7: METODY STATYSTYCZNE W BIOLOGII - theta.edu.pltheta.edu.pl/wp-content/uploads/2020/01/metodystatystyczne_11.pdf · 3. Testowanie hipotez i estymacja parametrów 4. Planowanie eksperymentów

5 NUMBER DATA SUMMARY

Box Plot - 5 number data summary

Copyright ©2019, Joanna Szyda

Page 8: METODY STATYSTYCZNE W BIOLOGII - theta.edu.pltheta.edu.pl/wp-content/uploads/2020/01/metodystatystyczne_11.pdf · 3. Testowanie hipotez i estymacja parametrów 4. Planowanie eksperymentów

Box Plot - 5 number data summary

mediana: 50% danych

1 kwartyl: 25% danych

3 kwartyl: 75% danych

minimum

maksimum

obserwacja odstająca

Copyright ©2019, Joanna Szyda

Page 9: METODY STATYSTYCZNE W BIOLOGII - theta.edu.pltheta.edu.pl/wp-content/uploads/2020/01/metodystatystyczne_11.pdf · 3. Testowanie hipotez i estymacja parametrów 4. Planowanie eksperymentów

Quantile:Quantile Plot - porównanie rozkładów

kwantyle rozkładu empirycznegonp. masa ciała

ryjówki

kwantyle rozkładu 1np. rozkład normalny

N(0,1)

pqXP

Copyright ©2019, Joanna Szyda

Page 10: METODY STATYSTYCZNE W BIOLOGII - theta.edu.pltheta.edu.pl/wp-content/uploads/2020/01/metodystatystyczne_11.pdf · 3. Testowanie hipotez i estymacja parametrów 4. Planowanie eksperymentów

QQ Plot - porównanie rozkładów

• QQ plot efekty SNP

• porównanie rozkładów

− teoretycznego− obserwowanego

• interpretacja

− punkty wzdłuż linii y=x → rozkłady podobne− linia płaska → rozkład na osi x ma większą wariancję− linia stroma → rozkład na osi x ma mniejszą wariancję− punkty odbiegające od linii → występowanie

odstających obserwacji

Copyright ©2019, Joanna Szyda

Page 11: METODY STATYSTYCZNE W BIOLOGII - theta.edu.pltheta.edu.pl/wp-content/uploads/2020/01/metodystatystyczne_11.pdf · 3. Testowanie hipotez i estymacja parametrów 4. Planowanie eksperymentów

Analiza Klasyfikacyjna

Page 12: METODY STATYSTYCZNE W BIOLOGII - theta.edu.pltheta.edu.pl/wp-content/uploads/2020/01/metodystatystyczne_11.pdf · 3. Testowanie hipotez i estymacja parametrów 4. Planowanie eksperymentów

Metody Klasyfikacyjne - k najbliższych sąsiadów

1. Klasyfikacja obserwacji = przydział obserwacji do danej grupy

2. Klasyfikacja na podstawie zmierzonych wartości

• treningowy zbiór danych = klasyfikacja znana• analizowany zbiór danych = klasyfikacja nieznana

3. Np.

• Taksonomia organizmów na podstawie pomiarów• Klasyfikacja irysów na podstawie kształtu kwiatów

Iris setosaIris versicolorCopyright ©2019, Joanna Szyda

Page 13: METODY STATYSTYCZNE W BIOLOGII - theta.edu.pltheta.edu.pl/wp-content/uploads/2020/01/metodystatystyczne_11.pdf · 3. Testowanie hipotez i estymacja parametrów 4. Planowanie eksperymentów

Metody Klasyfikacyjne - k najbliższych sąsiadów

treningowy zbiór danych

sepal length sepal width species

5.1 3.5 Iris-setosa

4.9 3 Iris-setosa

4.7 3.2 Iris-setosa

4.6 3.1 Iris-setosa

5 3.6 Iris-setosa

5.4 3.9 Iris-setosa

4.6 3.4 Iris-setosa

5 3.4 Iris-setosa

4.4 2.9 Iris-setosa

4.9 3.1 Iris-setosa

7 3.2 Iris-versicolor

6.4 3.2 Iris-versicolor

6.9 3.1 Iris-versicolor

5.5 2.3 Iris-versicolor

6.5 2.8 Iris-versicolor

5.7 2.8 Iris-versicolor

6.3 3.3 Iris-versicolor

4.9 2.4 Iris-versicolor

6.6 2.9 Iris-versicolor

5.2 2.7 Iris-versicolor

5 2 Iris-versicolor

5.9 3 Iris-versicolor

6 2.2 Iris-versicolor

6.1 2.9 Iris-versicolor

1

2

3

4

4 5 6 7

setosaversicolor

Iris setosaIris versicolor

Copyright ©2019, Joanna Szyda

Page 14: METODY STATYSTYCZNE W BIOLOGII - theta.edu.pltheta.edu.pl/wp-content/uploads/2020/01/metodystatystyczne_11.pdf · 3. Testowanie hipotez i estymacja parametrów 4. Planowanie eksperymentów

Metody Klasyfikacyjne - k najbliższych sąsiadów

Iris setosaIris versicolor

treningowy zbiór danych

sepal length sepal width species5.1 3.5 Iris-setosa

4.9 3 Iris-setosa

4.7 3.2 Iris-setosa

4.6 3.1 Iris-setosa

5 3.6 Iris-setosa

5.4 3.9 Iris-setosa

4.6 3.4 Iris-setosa

5 3.4 Iris-setosa

4.4 2.9 Iris-setosa

4.9 3.1 Iris-setosa

7 3.2 Iris-versicolor

6.4 3.2 Iris-versicolor

6.9 3.1 Iris-versicolor

5.5 2.3 Iris-versicolor

6.5 2.8 Iris-versicolor

5.7 2.8 Iris-versicolor

6.3 3.3 Iris-versicolor

4.9 2.4 Iris-versicolor

6.6 2.9 Iris-versicolor

5.2 2.7 Iris-versicolor

5 2 Iris-versicolor

5.9 3 Iris-versicolor

6 2.2 Iris-versicolor

6.1 2.9 Iris-versicolor

analizowany zbiór danych

5 2.4 ???

4.9 2.6 ???

1

2

3

4

4 5 6 7

setosa versicolor ?

Copyright ©2019, Joanna Szyda

Page 15: METODY STATYSTYCZNE W BIOLOGII - theta.edu.pltheta.edu.pl/wp-content/uploads/2020/01/metodystatystyczne_11.pdf · 3. Testowanie hipotez i estymacja parametrów 4. Planowanie eksperymentów

Metody Klasyfikacyjne - k najbliższych sąsiadówtreningowy zbiór danych k=8

sepal length sepal width species dystans najbliżsi sąsiedzi

5.1 3.5 Iris-setosa 1.22

4.9 3 Iris-setosa 0.37 Iris-setosa

4.7 3.2 Iris-setosa 0.73

4.6 3.1 Iris-setosa 0.65

5 3.6 Iris-setosa 1.44

5.4 3.9 Iris-setosa 2.41

4.6 3.4 Iris-setosa 1.16

5 3.4 Iris-setosa 1

4.4 2.9 Iris-setosa 0.61 Iris-setosa

4.9 3.1 Iris-setosa 0.5 Iris-setosa

7 3.2 Iris-versicolor 4.64

6.4 3.2 Iris-versicolor 2.6

6.9 3.1 Iris-versicolor 4.1

5.5 2.3 Iris-versicolor 0.26 Iris-versicolor

6.5 2.8 Iris-versicolor 2.41

5.7 2.8 Iris-versicolor 0.65 Iris-versicolor

6.3 3.3 Iris-versicolor 2.5

4.9 2.4 Iris-versicolor 0.01 Iris-versicolor

6.6 2.9 Iris-versicolor 2.81

5.2 2.7 Iris-versicolor 0.13 Iris-versicolor

5 2 Iris-versicolor 0.16 Iris-versicolor

5.9 3 Iris-versicolor 1.17

6 2.2 Iris-versicolor 1.04

6.1 2.9 Iris-versicolor 1.46

analizowany zbiór danych

5 2.4 ??? = Iris-versicolor

4.9 2.6 ??? Copyright ©2019, Joanna Szyda

Page 16: METODY STATYSTYCZNE W BIOLOGII - theta.edu.pltheta.edu.pl/wp-content/uploads/2020/01/metodystatystyczne_11.pdf · 3. Testowanie hipotez i estymacja parametrów 4. Planowanie eksperymentów

Metody Klasyfikacyjne - k najbliższych sąsiadówtreningowy zbiór danych k=8

sepal length sepal width species dystans najbliżsi sąsiedzi

5.1 3.5 Iris-setosa 0.85

4.9 3 Iris-setosa 0.16 Iris-setosa

4.7 3.2 Iris-setosa 0.4 Iris-setosa

4.6 3.1 Iris-setosa 0.34 Iris-setosa

5 3.6 Iris-setosa 1.01

5.4 3.9 Iris-setosa 1.94

4.6 3.4 Iris-setosa 0.73

5 3.4 Iris-setosa 0.65

4.4 2.9 Iris-setosa 0.34 Iris-setosa

4.9 3.1 Iris-setosa 0.25 Iris-setosa

7 3.2 Iris-versicolor 4.77

6.4 3.2 Iris-versicolor 2.61

6.9 3.1 Iris-versicolor 4.25

5.5 2.3 Iris-versicolor 0.45

6.5 2.8 Iris-versicolor 2.6

5.7 2.8 Iris-versicolor 0.68

6.3 3.3 Iris-versicolor 2.45

4.9 2.4 Iris-versicolor 0.04 Iris-versicolor

6.6 2.9 Iris-versicolor 2.98

5.2 2.7 Iris-versicolor 0.1 Iris-versicolor

5 2 Iris-versicolor 0.37 Iris-versicolor

5.9 3 Iris-versicolor 1.16

6 2.2 Iris-versicolor 1.37

6.1 2.9 Iris-versicolor 1.53

analizowany zbiór danych

5 2.4 ??? = Iris-versicolor

4.9 2.6 ??? = Iris setosa Copyright ©2019, Joanna Szyda

Page 17: METODY STATYSTYCZNE W BIOLOGII - theta.edu.pltheta.edu.pl/wp-content/uploads/2020/01/metodystatystyczne_11.pdf · 3. Testowanie hipotez i estymacja parametrów 4. Planowanie eksperymentów

Analiza skupień

Page 18: METODY STATYSTYCZNE W BIOLOGII - theta.edu.pltheta.edu.pl/wp-content/uploads/2020/01/metodystatystyczne_11.pdf · 3. Testowanie hipotez i estymacja parametrów 4. Planowanie eksperymentów

METODY KLASYFIKACYJNE - k najbliższych sąsiadów

1. Wybór liczby klas np. k=2

2. Losowy przydział obserwacji do klasy

3. Obliczyć koordynaty środków każdej klasy centroidy

4. Obliczyć odległość każdej obserwacji od środka klasy

5. Nowy przydział obserwacji do klas na podstawie odległości od środków

6. … do pkt. 3

7. … aż do uzyskania zbieżności algorytmu = ustalenie się przydziału do klas

Copyright ©2019, Joanna Szyda

Page 19: METODY STATYSTYCZNE W BIOLOGII - theta.edu.pltheta.edu.pl/wp-content/uploads/2020/01/metodystatystyczne_11.pdf · 3. Testowanie hipotez i estymacja parametrów 4. Planowanie eksperymentów

METODY KLASYFIKACYJNE - k najbliższych sąsiadów

Copyright ©2019, Joanna Szyda

k=2

1klastry losowe

Data klaster centroid k1 k2 dystans

wybrany

klaster

sepal length sepal width species sepal length 5.68 5.38to k1 to k2

5.1 3.5 Iris-setosa 1sepal width 3.01 2.98 0.57 0.34 2

4.9 3 Iris-setosa 2 0.60 0.23 2

4.7 3.2 Iris-setosa 1 0.99 0.50 2

4.6 3.1 Iris-setosa 2 1.16 0.61 2

5 3.6 Iris-setosa 1 0.81 0.52 2

5.4 3.9 Iris-setosa 2 0.87 0.84 2

4.6 3.4 Iris-setosa 1 1.31 0.77 2

5 3.4 Iris-setosa 2 0.61 0.31 2

4.4 2.9 Iris-setosa 1 1.64 0.96 2

4.9 3.1 Iris-setosa 2 0.61 0.24 2

7 3.2 Iris-versicolor 1 1.79 2.69 1

6.4 3.2 Iris-versicolor 2 0.56 1.10 1

6.9 3.1 Iris-versicolor 1 1.51 2.34 1

5.5 2.3 Iris-versicolor 2 0.53 0.48 2

6.5 2.8 Iris-versicolor 1 0.72 1.30 1

5.7 2.8 Iris-versicolor 2 0.04 0.14 1

6.3 3.3 Iris-versicolor 1 0.48 0.96 1

4.9 2.4 Iris-versicolor 2 0.97 0.57 2

6.6 2.9 Iris-versicolor 1 0.87 1.51 1

5.2 2.7 Iris-versicolor 2 0.32 0.11 2

5 2 Iris-versicolor 1 1.47 1.11 2

5.9 3 Iris-versicolor 2 0.05 0.28 1

6 2.2 Iris-versicolor 1 0.76 1.00 1

6.1 2.9 Iris-versicolor 2 0.19 0.53 1

Page 20: METODY STATYSTYCZNE W BIOLOGII - theta.edu.pltheta.edu.pl/wp-content/uploads/2020/01/metodystatystyczne_11.pdf · 3. Testowanie hipotez i estymacja parametrów 4. Planowanie eksperymentów

METODY KLASYFIKACYJNE - k najbliższych sąsiadów

Copyright ©2019, Joanna Szyda

k=2

2klastry losowe

Data klaster centroid k1 k2 dystans

wybrany

klaster

sepal length sepal width species sepal length 6.34 4.94to k1 to k2

5.1 3.5 Iris-setosa 2sepal width 2.94 3.04 1.85 0.24 2

4.9 3 Iris-setosa 2 2.08 0.00 2

4.7 3.2 Iris-setosa 2 2.76 0.09 2

4.6 3.1 Iris-setosa 2 3.05 0.12 2

5 3.6 Iris-setosa 2 2.23 0.32 2

5.4 3.9 Iris-setosa 2 1.81 0.96 2

4.6 3.4 Iris-setosa 2 3.24 0.25 2

5 3.4 Iris-setosa 2 2.01 0.14 2

4.4 2.9 Iris-setosa 2 3.77 0.31 2

4.9 3.1 Iris-setosa 2 2.10 0.01 2

7 3.2 Iris-versicolor 1 0.50 4.26 1

6.4 3.2 Iris-versicolor 1 0.07 2.15 1

6.9 3.1 Iris-versicolor 1 0.34 3.83 1

5.5 2.3 Iris-versicolor 2 1.12 0.85 2

6.5 2.8 Iris-versicolor 1 0.05 2.48 1

5.7 2.8 Iris-versicolor 1 0.43 0.63 1

6.3 3.3 Iris-versicolor 1 0.13 1.91 1

4.9 2.4 Iris-versicolor 2 2.37 0.41 2

6.6 2.9 Iris-versicolor 1 0.07 2.76 1

5.2 2.7 Iris-versicolor 2 1.36 0.18 2

5 2 Iris-versicolor 2 2.68 1.08 2

5.9 3 Iris-versicolor 1 0.20 0.92 1

6 2.2 Iris-versicolor 1 0.66 1.82 1

6.1 2.9 Iris-versicolor 1 0.06 1.36 1

Page 21: METODY STATYSTYCZNE W BIOLOGII - theta.edu.pltheta.edu.pl/wp-content/uploads/2020/01/metodystatystyczne_11.pdf · 3. Testowanie hipotez i estymacja parametrów 4. Planowanie eksperymentów

METODY KLASYFIKACYJNE - k najbliższych sąsiadów

Copyright ©2019, Joanna Szyda

> head(iris)

> y = iris$Species

> x = iris[,-5]

> kc <- kmeans(x,3)

> table(y,kc$cluster)

> plot(x[c("Sepal.Length", "Sepal.Width")], col=kc$cluster)

> points(kc$centers[,c("Sepal.Length", "Sepal.Width")], col=1:3, pch=23, cex=3)

Page 22: METODY STATYSTYCZNE W BIOLOGII - theta.edu.pltheta.edu.pl/wp-content/uploads/2020/01/metodystatystyczne_11.pdf · 3. Testowanie hipotez i estymacja parametrów 4. Planowanie eksperymentów

Uczenie maszynowe

Page 23: METODY STATYSTYCZNE W BIOLOGII - theta.edu.pltheta.edu.pl/wp-content/uploads/2020/01/metodystatystyczne_11.pdf · 3. Testowanie hipotez i estymacja parametrów 4. Planowanie eksperymentów

Sztuczne sieci neuronowe – artificial neural networks (ANN)

x1

x2

x3

x4

Z Y

w1

w2

w3

w4

0/1

danewejściowe

wagi warstwaukryta

funkcja IOaktywacja

wynik

Perceptron jednostka budowy ANN

𝒊=𝟏

𝟒

𝒙𝒊𝒘𝒊

ቐz < T → 𝒚 = 𝟎

z ≥ T → 𝒚 = 𝟎

Copyright ©2019, Joanna Szyda

Page 24: METODY STATYSTYCZNE W BIOLOGII - theta.edu.pltheta.edu.pl/wp-content/uploads/2020/01/metodystatystyczne_11.pdf · 3. Testowanie hipotez i estymacja parametrów 4. Planowanie eksperymentów

Sztuczne sieci neuronowe – dane treningowe

treningowy zbiór danych

sepal length sepal width species

5.1 3.5 Iris-setosa

4.9 3 Iris-setosa

4.7 3.2 Iris-setosa

4.6 3.1 Iris-setosa

5 3.6 Iris-setosa

5.4 3.9 Iris-setosa

4.6 3.4 Iris-setosa

5 3.4 Iris-setosa

4.4 2.9 Iris-setosa

4.9 3.1 Iris-setosa

7 3.2 Iris-versicolor

6.4 3.2 Iris-versicolor

6.9 3.1 Iris-versicolor

5.5 2.3 Iris-versicolor

6.5 2.8 Iris-versicolor

5.7 2.8 Iris-versicolor

6.3 3.3 Iris-versicolor

4.9 2.4 Iris-versicolor

6.6 2.9 Iris-versicolor

5.2 2.7 Iris-versicolor

5 2 Iris-versicolor

5.9 3 Iris-versicolor

6 2.2 Iris-versicolor

6.1 2.9 Iris-versicolor

Copyright ©2019, Joanna Szyda

sepal length

sepal width

petallength

petal width

versicolor

w

Z

setosa

ෝ𝒘

ෝ𝒘

ෝ𝒘

ෝ𝒘

Page 25: METODY STATYSTYCZNE W BIOLOGII - theta.edu.pltheta.edu.pl/wp-content/uploads/2020/01/metodystatystyczne_11.pdf · 3. Testowanie hipotez i estymacja parametrów 4. Planowanie eksperymentów

Sztuczne sieci neuronowe – dane do klasyfikacji

treningowy zbiór danych

sepal length sepal width species5.1 3.5 Iris-setosa

4.9 3 Iris-setosa

4.7 3.2 Iris-setosa

4.6 3.1 Iris-setosa

5 3.6 Iris-setosa

5.4 3.9 Iris-setosa

4.6 3.4 Iris-setosa

5 3.4 Iris-setosa

4.4 2.9 Iris-setosa

4.9 3.1 Iris-setosa

7 3.2 Iris-versicolor

6.4 3.2 Iris-versicolor

6.9 3.1 Iris-versicolor

5.5 2.3 Iris-versicolor

6.5 2.8 Iris-versicolor

5.7 2.8 Iris-versicolor

6.3 3.3 Iris-versicolor

4.9 2.4 Iris-versicolor

6.6 2.9 Iris-versicolor

5.2 2.7 Iris-versicolor

5 2 Iris-versicolor

5.9 3 Iris-versicolor

6 2.2 Iris-versicolor

6.1 2.9 Iris-versicolor

analizowany zbiór danych

5 2.4 ???

4.9 2.6 ???Copyright ©2019, Joanna Szyda

sepal length

sepal width

petallength

petal width

versicolor

w

Z

setosa

ෝ𝒘

ෝ𝒘

ෝ𝒘

ෝ𝒘

Page 26: METODY STATYSTYCZNE W BIOLOGII - theta.edu.pltheta.edu.pl/wp-content/uploads/2020/01/metodystatystyczne_11.pdf · 3. Testowanie hipotez i estymacja parametrów 4. Planowanie eksperymentów

Sztuczne sieci neuronowe – dane do klasyfikacji

treningowy zbiór danych

sepal length sepal width species5.1 3.5 Iris-setosa

4.9 3 Iris-setosa

4.7 3.2 Iris-setosa

4.6 3.1 Iris-setosa

5 3.6 Iris-setosa

5.4 3.9 Iris-setosa

4.6 3.4 Iris-setosa

5 3.4 Iris-setosa

4.4 2.9 Iris-setosa

4.9 3.1 Iris-setosa

7 3.2 Iris-versicolor

6.4 3.2 Iris-versicolor

6.9 3.1 Iris-versicolor

5.5 2.3 Iris-versicolor

6.5 2.8 Iris-versicolor

5.7 2.8 Iris-versicolor

6.3 3.3 Iris-versicolor

4.9 2.4 Iris-versicolor

6.6 2.9 Iris-versicolor

5.2 2.7 Iris-versicolor

5 2 Iris-versicolor

5.9 3 Iris-versicolor

6 2.2 Iris-versicolor

6.1 2.9 Iris-versicolor

analizowany zbiór danych

5 2.4 ???

4.9 2.6 ???

sepal length

sepal width

petallength

petal width

versicolor

w

Z

setosa

ෝ𝒘

ෝ𝒘

ෝ𝒘

ෝ𝒘

Copyright ©2019, Joanna Szyda

Page 27: METODY STATYSTYCZNE W BIOLOGII - theta.edu.pltheta.edu.pl/wp-content/uploads/2020/01/metodystatystyczne_11.pdf · 3. Testowanie hipotez i estymacja parametrów 4. Planowanie eksperymentów

Uczenie głębokie

Copyright ©2019, Joanna Szyda following F. Chollet „Deep learning with Python”

Page 28: METODY STATYSTYCZNE W BIOLOGII - theta.edu.pltheta.edu.pl/wp-content/uploads/2020/01/metodystatystyczne_11.pdf · 3. Testowanie hipotez i estymacja parametrów 4. Planowanie eksperymentów

Uczenie głębokie - schemat

Copyright ©2019, Joanna Szyda following F. Chollet „Deep learning with Python”

• Krok 1 wagi losowe

• Krok 2 modyfikacja wag kryterium = zmniejszenie loss score

• …. Krok n training loops

• Modyfikacja wag backpropagation algorithm

Page 29: METODY STATYSTYCZNE W BIOLOGII - theta.edu.pltheta.edu.pl/wp-content/uploads/2020/01/metodystatystyczne_11.pdf · 3. Testowanie hipotez i estymacja parametrów 4. Planowanie eksperymentów

Uczenie głębokie – kod Keras

Copyright ©2019, Joanna Szyda following F. Chollet „Deep learning with Python”

> from keras import models

> from keras import layers

> network = models.Sequential()

> x_train,x_test,y_train,y_test = train_test_split(X,Y,test_size=0.2,random_state=0)

> model.add(Dense(30, input_shape=(4,), activation='relu'))

> model.add(Dense(10,activation='relu'))

> model.add(Dense(5,activation='relu'))

> model.add(Dense(3,activation='softmax')) 3 gatunki irysa (setosa, versicolor, virginica)

> model.compile(optimizer='rmsprop', loss='categorical_crossentropy', metrics=['accuracy'])

> model.fit(x_train, y_train, epochs=100)

Page 30: METODY STATYSTYCZNE W BIOLOGII - theta.edu.pltheta.edu.pl/wp-content/uploads/2020/01/metodystatystyczne_11.pdf · 3. Testowanie hipotez i estymacja parametrów 4. Planowanie eksperymentów

Uczenie głębokie – kod Keras

Copyright ©2019, Joanna Szyda following F. Chollet „Deep learning with Python”

Podsumowanie klasyfikacji – confusion matrix

Page 31: METODY STATYSTYCZNE W BIOLOGII - theta.edu.pltheta.edu.pl/wp-content/uploads/2020/01/metodystatystyczne_11.pdf · 3. Testowanie hipotez i estymacja parametrów 4. Planowanie eksperymentów

Przykłady Zastosowań

Page 32: METODY STATYSTYCZNE W BIOLOGII - theta.edu.pltheta.edu.pl/wp-content/uploads/2020/01/metodystatystyczne_11.pdf · 3. Testowanie hipotez i estymacja parametrów 4. Planowanie eksperymentów

Box Plot

Copyright ©2019, Joanna Szyda

Page 33: METODY STATYSTYCZNE W BIOLOGII - theta.edu.pltheta.edu.pl/wp-content/uploads/2020/01/metodystatystyczne_11.pdf · 3. Testowanie hipotez i estymacja parametrów 4. Planowanie eksperymentów

Deep Learning

Copyright ©2019, Joanna Szyda

Page 34: METODY STATYSTYCZNE W BIOLOGII - theta.edu.pltheta.edu.pl/wp-content/uploads/2020/01/metodystatystyczne_11.pdf · 3. Testowanie hipotez i estymacja parametrów 4. Planowanie eksperymentów

VIDEO Kurs MIThttps://www.youtube.com/watch?v=JN6H4rQvwgY

Copyright ©2019, Joanna Szyda

Page 35: METODY STATYSTYCZNE W BIOLOGII - theta.edu.pltheta.edu.pl/wp-content/uploads/2020/01/metodystatystyczne_11.pdf · 3. Testowanie hipotez i estymacja parametrów 4. Planowanie eksperymentów

1. Konfirmatywna, a eksploratywna analiza danych

2. Przykłady metodyki EDA

• Box plot

• QQ plot

• Analiza klasyfikacyjna

• Analiza skupień

• Uczenie maszynowe