Upload
others
View
1
Download
0
Embed Size (px)
Citation preview
METODY STATYSTYCZNE W BIOLOGII
1. Wykład wstępny
2. Populacje i próby danych
3. Testowanie hipotez i estymacja parametrów
4. Planowanie eksperymentów biologicznych
5. Najczęściej wykorzystywane testy statystyczne
6. Podsumowanie materiału, wspólna analiza przykładów, dyskusja
7. Regresja liniowa
8. Regresja nieliniowa
9. Określenie jakości dopasowania równania regresji liniowej i nieliniowej
10. Korelacja
11. Elementy statystycznego modelowania danych - EDA
12. Porównywanie modeli
13. Analiza wariancji
14. Analiza kowariancji
15. Podsumowanie materiału, wspólna analiza przykładów, dyskusja
Wstęp
1. Konfirmatywna, a eksploratywna analiza danych
2. Przykłady metodyki EDA
• Box plot
• QQ plot
• Analiza klasyfikacyjna
• Analiza skupień
• Uczenie maszynowe
Copyright ©2019, Joanna Szyda
Eksploratywna analiza danych Konfirmatywna analiza danych
Statystyczne Modelowanie Danych
• Exploratory data analysis • Confirmatory data analysis
IND P.0 P.132 P.265 P.397 P.530
346 0.2999 1.3938 4.047 8.9365 14.4663
347 0.4265 1.9578 6.6809 15.9458 27.3269
348 0.4991 2.0284 6.0664 13.7166 22.7103
349 0.1739 1.2515 4.4695 11.0793 18.7735
350 0.3712 1.8365 5.9575 14.4277 23.8408
351 0.2727 1.3336 3.9884 8.7238 14.138
352 1.1542 3.7294 9.8721 20.2459 32.292
353 0.3175 1.7614 5.678 13.824 22.7556
354 0.1726 1.2156 4.464 11.2814 19.679
355 0.6935 2.8703 8.4873 19.1791 30.8544
356 0.5498 2.3433 7.2887 17.2022 28.4123
357 0.7276 2.5778 7.4177 16.2656 25.7423
358 0.5879 2.3876 7.0633 17.2328 28.7312
359 0.4806 2.339 7.7452 18.9444 31.8284
360 0.481 2.2166 7.087 17.0398 27.9577
361 0.2769 1.66 5.6707 14.9897 25.8092
362 0.7281 2.6245 7.3139 16.0735 26.359
363 0.3418 1.6791 5.6198 13.568 22.6985
364 0.3764 1.7024 5.2701 12.5866 21.5353
365 0.5849 2.1908 6.2308 13.3812 21.5758
Copyright ©2019, Joanna Szyda
SAS – INTERPRETACJAWYNIKÓW
0
5
10
15
20
LEPR BTN DGAT LEP
LRT
gen
• H0: gen nie wykazuje powiązania z cechą mi = 0
• H1: gen wykazuje powiązanie z cechą mi 0
• założone maksymalne prawdopodobieństwo błędu aMAX = 0.01
• LRT (LEPR) =0.80
• LRT (BTN) =9.65
• LRT (DGAT) =27.18
• LRT (LEP) =5.-1
• aT(LEPR) =0.3996
• aT(BTN) =0.0019
• aT(DGAT) =0.0000002
• aT(LEP) =0.0252
• LEPR =H0
• BTN =H1
• DGAT =H1
• LEP =H0
PODEJŚCIE KLASYCZNE
Konfirmatywna Analiza Danych
• sformułowanie hipotezy
• określenie maksymalnego błędu I-go rodzaju
• wybór i obliczenie testu statystycznego
• obliczenie błędu I-go rodzaju
• decyzja dotycząca hipotezy
Copyright ©2019, Joanna Szyda
EDA
Eksploratywna Analiza Danych
• John Tukey
• brak z góry założonej hipotezy
• wykorzystanie różnych narzędzi
− statystycznych− graficznych
• eksploracja struktury danych
• data mining
• wyróżnienie najważniejszych zmiennych
• wyróżnienie odstających obserwacji
Copyright ©2019, Joanna Szyda
Przykłady Analizy Graficznej
5 NUMBER DATA SUMMARY
Box Plot - 5 number data summary
Copyright ©2019, Joanna Szyda
Box Plot - 5 number data summary
mediana: 50% danych
1 kwartyl: 25% danych
3 kwartyl: 75% danych
minimum
maksimum
obserwacja odstająca
Copyright ©2019, Joanna Szyda
Quantile:Quantile Plot - porównanie rozkładów
kwantyle rozkładu empirycznegonp. masa ciała
ryjówki
kwantyle rozkładu 1np. rozkład normalny
N(0,1)
pqXP
Copyright ©2019, Joanna Szyda
QQ Plot - porównanie rozkładów
• QQ plot efekty SNP
• porównanie rozkładów
− teoretycznego− obserwowanego
• interpretacja
− punkty wzdłuż linii y=x → rozkłady podobne− linia płaska → rozkład na osi x ma większą wariancję− linia stroma → rozkład na osi x ma mniejszą wariancję− punkty odbiegające od linii → występowanie
odstających obserwacji
Copyright ©2019, Joanna Szyda
Analiza Klasyfikacyjna
Metody Klasyfikacyjne - k najbliższych sąsiadów
1. Klasyfikacja obserwacji = przydział obserwacji do danej grupy
2. Klasyfikacja na podstawie zmierzonych wartości
• treningowy zbiór danych = klasyfikacja znana• analizowany zbiór danych = klasyfikacja nieznana
3. Np.
• Taksonomia organizmów na podstawie pomiarów• Klasyfikacja irysów na podstawie kształtu kwiatów
Iris setosaIris versicolorCopyright ©2019, Joanna Szyda
Metody Klasyfikacyjne - k najbliższych sąsiadów
treningowy zbiór danych
sepal length sepal width species
5.1 3.5 Iris-setosa
4.9 3 Iris-setosa
4.7 3.2 Iris-setosa
4.6 3.1 Iris-setosa
5 3.6 Iris-setosa
5.4 3.9 Iris-setosa
4.6 3.4 Iris-setosa
5 3.4 Iris-setosa
4.4 2.9 Iris-setosa
4.9 3.1 Iris-setosa
7 3.2 Iris-versicolor
6.4 3.2 Iris-versicolor
6.9 3.1 Iris-versicolor
5.5 2.3 Iris-versicolor
6.5 2.8 Iris-versicolor
5.7 2.8 Iris-versicolor
6.3 3.3 Iris-versicolor
4.9 2.4 Iris-versicolor
6.6 2.9 Iris-versicolor
5.2 2.7 Iris-versicolor
5 2 Iris-versicolor
5.9 3 Iris-versicolor
6 2.2 Iris-versicolor
6.1 2.9 Iris-versicolor
1
2
3
4
4 5 6 7
setosaversicolor
Iris setosaIris versicolor
Copyright ©2019, Joanna Szyda
Metody Klasyfikacyjne - k najbliższych sąsiadów
Iris setosaIris versicolor
treningowy zbiór danych
sepal length sepal width species5.1 3.5 Iris-setosa
4.9 3 Iris-setosa
4.7 3.2 Iris-setosa
4.6 3.1 Iris-setosa
5 3.6 Iris-setosa
5.4 3.9 Iris-setosa
4.6 3.4 Iris-setosa
5 3.4 Iris-setosa
4.4 2.9 Iris-setosa
4.9 3.1 Iris-setosa
7 3.2 Iris-versicolor
6.4 3.2 Iris-versicolor
6.9 3.1 Iris-versicolor
5.5 2.3 Iris-versicolor
6.5 2.8 Iris-versicolor
5.7 2.8 Iris-versicolor
6.3 3.3 Iris-versicolor
4.9 2.4 Iris-versicolor
6.6 2.9 Iris-versicolor
5.2 2.7 Iris-versicolor
5 2 Iris-versicolor
5.9 3 Iris-versicolor
6 2.2 Iris-versicolor
6.1 2.9 Iris-versicolor
analizowany zbiór danych
5 2.4 ???
4.9 2.6 ???
1
2
3
4
4 5 6 7
setosa versicolor ?
Copyright ©2019, Joanna Szyda
Metody Klasyfikacyjne - k najbliższych sąsiadówtreningowy zbiór danych k=8
sepal length sepal width species dystans najbliżsi sąsiedzi
5.1 3.5 Iris-setosa 1.22
4.9 3 Iris-setosa 0.37 Iris-setosa
4.7 3.2 Iris-setosa 0.73
4.6 3.1 Iris-setosa 0.65
5 3.6 Iris-setosa 1.44
5.4 3.9 Iris-setosa 2.41
4.6 3.4 Iris-setosa 1.16
5 3.4 Iris-setosa 1
4.4 2.9 Iris-setosa 0.61 Iris-setosa
4.9 3.1 Iris-setosa 0.5 Iris-setosa
7 3.2 Iris-versicolor 4.64
6.4 3.2 Iris-versicolor 2.6
6.9 3.1 Iris-versicolor 4.1
5.5 2.3 Iris-versicolor 0.26 Iris-versicolor
6.5 2.8 Iris-versicolor 2.41
5.7 2.8 Iris-versicolor 0.65 Iris-versicolor
6.3 3.3 Iris-versicolor 2.5
4.9 2.4 Iris-versicolor 0.01 Iris-versicolor
6.6 2.9 Iris-versicolor 2.81
5.2 2.7 Iris-versicolor 0.13 Iris-versicolor
5 2 Iris-versicolor 0.16 Iris-versicolor
5.9 3 Iris-versicolor 1.17
6 2.2 Iris-versicolor 1.04
6.1 2.9 Iris-versicolor 1.46
analizowany zbiór danych
5 2.4 ??? = Iris-versicolor
4.9 2.6 ??? Copyright ©2019, Joanna Szyda
Metody Klasyfikacyjne - k najbliższych sąsiadówtreningowy zbiór danych k=8
sepal length sepal width species dystans najbliżsi sąsiedzi
5.1 3.5 Iris-setosa 0.85
4.9 3 Iris-setosa 0.16 Iris-setosa
4.7 3.2 Iris-setosa 0.4 Iris-setosa
4.6 3.1 Iris-setosa 0.34 Iris-setosa
5 3.6 Iris-setosa 1.01
5.4 3.9 Iris-setosa 1.94
4.6 3.4 Iris-setosa 0.73
5 3.4 Iris-setosa 0.65
4.4 2.9 Iris-setosa 0.34 Iris-setosa
4.9 3.1 Iris-setosa 0.25 Iris-setosa
7 3.2 Iris-versicolor 4.77
6.4 3.2 Iris-versicolor 2.61
6.9 3.1 Iris-versicolor 4.25
5.5 2.3 Iris-versicolor 0.45
6.5 2.8 Iris-versicolor 2.6
5.7 2.8 Iris-versicolor 0.68
6.3 3.3 Iris-versicolor 2.45
4.9 2.4 Iris-versicolor 0.04 Iris-versicolor
6.6 2.9 Iris-versicolor 2.98
5.2 2.7 Iris-versicolor 0.1 Iris-versicolor
5 2 Iris-versicolor 0.37 Iris-versicolor
5.9 3 Iris-versicolor 1.16
6 2.2 Iris-versicolor 1.37
6.1 2.9 Iris-versicolor 1.53
analizowany zbiór danych
5 2.4 ??? = Iris-versicolor
4.9 2.6 ??? = Iris setosa Copyright ©2019, Joanna Szyda
Analiza skupień
METODY KLASYFIKACYJNE - k najbliższych sąsiadów
1. Wybór liczby klas np. k=2
2. Losowy przydział obserwacji do klasy
3. Obliczyć koordynaty środków każdej klasy centroidy
4. Obliczyć odległość każdej obserwacji od środka klasy
5. Nowy przydział obserwacji do klas na podstawie odległości od środków
6. … do pkt. 3
7. … aż do uzyskania zbieżności algorytmu = ustalenie się przydziału do klas
Copyright ©2019, Joanna Szyda
METODY KLASYFIKACYJNE - k najbliższych sąsiadów
Copyright ©2019, Joanna Szyda
k=2
1klastry losowe
Data klaster centroid k1 k2 dystans
wybrany
klaster
sepal length sepal width species sepal length 5.68 5.38to k1 to k2
5.1 3.5 Iris-setosa 1sepal width 3.01 2.98 0.57 0.34 2
4.9 3 Iris-setosa 2 0.60 0.23 2
4.7 3.2 Iris-setosa 1 0.99 0.50 2
4.6 3.1 Iris-setosa 2 1.16 0.61 2
5 3.6 Iris-setosa 1 0.81 0.52 2
5.4 3.9 Iris-setosa 2 0.87 0.84 2
4.6 3.4 Iris-setosa 1 1.31 0.77 2
5 3.4 Iris-setosa 2 0.61 0.31 2
4.4 2.9 Iris-setosa 1 1.64 0.96 2
4.9 3.1 Iris-setosa 2 0.61 0.24 2
7 3.2 Iris-versicolor 1 1.79 2.69 1
6.4 3.2 Iris-versicolor 2 0.56 1.10 1
6.9 3.1 Iris-versicolor 1 1.51 2.34 1
5.5 2.3 Iris-versicolor 2 0.53 0.48 2
6.5 2.8 Iris-versicolor 1 0.72 1.30 1
5.7 2.8 Iris-versicolor 2 0.04 0.14 1
6.3 3.3 Iris-versicolor 1 0.48 0.96 1
4.9 2.4 Iris-versicolor 2 0.97 0.57 2
6.6 2.9 Iris-versicolor 1 0.87 1.51 1
5.2 2.7 Iris-versicolor 2 0.32 0.11 2
5 2 Iris-versicolor 1 1.47 1.11 2
5.9 3 Iris-versicolor 2 0.05 0.28 1
6 2.2 Iris-versicolor 1 0.76 1.00 1
6.1 2.9 Iris-versicolor 2 0.19 0.53 1
METODY KLASYFIKACYJNE - k najbliższych sąsiadów
Copyright ©2019, Joanna Szyda
k=2
2klastry losowe
Data klaster centroid k1 k2 dystans
wybrany
klaster
sepal length sepal width species sepal length 6.34 4.94to k1 to k2
5.1 3.5 Iris-setosa 2sepal width 2.94 3.04 1.85 0.24 2
4.9 3 Iris-setosa 2 2.08 0.00 2
4.7 3.2 Iris-setosa 2 2.76 0.09 2
4.6 3.1 Iris-setosa 2 3.05 0.12 2
5 3.6 Iris-setosa 2 2.23 0.32 2
5.4 3.9 Iris-setosa 2 1.81 0.96 2
4.6 3.4 Iris-setosa 2 3.24 0.25 2
5 3.4 Iris-setosa 2 2.01 0.14 2
4.4 2.9 Iris-setosa 2 3.77 0.31 2
4.9 3.1 Iris-setosa 2 2.10 0.01 2
7 3.2 Iris-versicolor 1 0.50 4.26 1
6.4 3.2 Iris-versicolor 1 0.07 2.15 1
6.9 3.1 Iris-versicolor 1 0.34 3.83 1
5.5 2.3 Iris-versicolor 2 1.12 0.85 2
6.5 2.8 Iris-versicolor 1 0.05 2.48 1
5.7 2.8 Iris-versicolor 1 0.43 0.63 1
6.3 3.3 Iris-versicolor 1 0.13 1.91 1
4.9 2.4 Iris-versicolor 2 2.37 0.41 2
6.6 2.9 Iris-versicolor 1 0.07 2.76 1
5.2 2.7 Iris-versicolor 2 1.36 0.18 2
5 2 Iris-versicolor 2 2.68 1.08 2
5.9 3 Iris-versicolor 1 0.20 0.92 1
6 2.2 Iris-versicolor 1 0.66 1.82 1
6.1 2.9 Iris-versicolor 1 0.06 1.36 1
METODY KLASYFIKACYJNE - k najbliższych sąsiadów
Copyright ©2019, Joanna Szyda
> head(iris)
> y = iris$Species
> x = iris[,-5]
> kc <- kmeans(x,3)
> table(y,kc$cluster)
> plot(x[c("Sepal.Length", "Sepal.Width")], col=kc$cluster)
> points(kc$centers[,c("Sepal.Length", "Sepal.Width")], col=1:3, pch=23, cex=3)
Uczenie maszynowe
Sztuczne sieci neuronowe – artificial neural networks (ANN)
x1
x2
x3
x4
Z Y
w1
w2
w3
w4
0/1
danewejściowe
wagi warstwaukryta
funkcja IOaktywacja
wynik
Perceptron jednostka budowy ANN
𝒊=𝟏
𝟒
𝒙𝒊𝒘𝒊
ቐz < T → 𝒚 = 𝟎
z ≥ T → 𝒚 = 𝟎
Copyright ©2019, Joanna Szyda
Sztuczne sieci neuronowe – dane treningowe
treningowy zbiór danych
sepal length sepal width species
5.1 3.5 Iris-setosa
4.9 3 Iris-setosa
4.7 3.2 Iris-setosa
4.6 3.1 Iris-setosa
5 3.6 Iris-setosa
5.4 3.9 Iris-setosa
4.6 3.4 Iris-setosa
5 3.4 Iris-setosa
4.4 2.9 Iris-setosa
4.9 3.1 Iris-setosa
7 3.2 Iris-versicolor
6.4 3.2 Iris-versicolor
6.9 3.1 Iris-versicolor
5.5 2.3 Iris-versicolor
6.5 2.8 Iris-versicolor
5.7 2.8 Iris-versicolor
6.3 3.3 Iris-versicolor
4.9 2.4 Iris-versicolor
6.6 2.9 Iris-versicolor
5.2 2.7 Iris-versicolor
5 2 Iris-versicolor
5.9 3 Iris-versicolor
6 2.2 Iris-versicolor
6.1 2.9 Iris-versicolor
Copyright ©2019, Joanna Szyda
sepal length
sepal width
petallength
petal width
versicolor
w
Z
setosa
ෝ𝒘
ෝ𝒘
ෝ𝒘
ෝ𝒘
Sztuczne sieci neuronowe – dane do klasyfikacji
treningowy zbiór danych
sepal length sepal width species5.1 3.5 Iris-setosa
4.9 3 Iris-setosa
4.7 3.2 Iris-setosa
4.6 3.1 Iris-setosa
5 3.6 Iris-setosa
5.4 3.9 Iris-setosa
4.6 3.4 Iris-setosa
5 3.4 Iris-setosa
4.4 2.9 Iris-setosa
4.9 3.1 Iris-setosa
7 3.2 Iris-versicolor
6.4 3.2 Iris-versicolor
6.9 3.1 Iris-versicolor
5.5 2.3 Iris-versicolor
6.5 2.8 Iris-versicolor
5.7 2.8 Iris-versicolor
6.3 3.3 Iris-versicolor
4.9 2.4 Iris-versicolor
6.6 2.9 Iris-versicolor
5.2 2.7 Iris-versicolor
5 2 Iris-versicolor
5.9 3 Iris-versicolor
6 2.2 Iris-versicolor
6.1 2.9 Iris-versicolor
analizowany zbiór danych
5 2.4 ???
4.9 2.6 ???Copyright ©2019, Joanna Szyda
sepal length
sepal width
petallength
petal width
versicolor
w
Z
setosa
ෝ𝒘
ෝ𝒘
ෝ𝒘
ෝ𝒘
Sztuczne sieci neuronowe – dane do klasyfikacji
treningowy zbiór danych
sepal length sepal width species5.1 3.5 Iris-setosa
4.9 3 Iris-setosa
4.7 3.2 Iris-setosa
4.6 3.1 Iris-setosa
5 3.6 Iris-setosa
5.4 3.9 Iris-setosa
4.6 3.4 Iris-setosa
5 3.4 Iris-setosa
4.4 2.9 Iris-setosa
4.9 3.1 Iris-setosa
7 3.2 Iris-versicolor
6.4 3.2 Iris-versicolor
6.9 3.1 Iris-versicolor
5.5 2.3 Iris-versicolor
6.5 2.8 Iris-versicolor
5.7 2.8 Iris-versicolor
6.3 3.3 Iris-versicolor
4.9 2.4 Iris-versicolor
6.6 2.9 Iris-versicolor
5.2 2.7 Iris-versicolor
5 2 Iris-versicolor
5.9 3 Iris-versicolor
6 2.2 Iris-versicolor
6.1 2.9 Iris-versicolor
analizowany zbiór danych
5 2.4 ???
4.9 2.6 ???
sepal length
sepal width
petallength
petal width
versicolor
w
Z
setosa
ෝ𝒘
ෝ𝒘
ෝ𝒘
ෝ𝒘
Copyright ©2019, Joanna Szyda
Uczenie głębokie
Copyright ©2019, Joanna Szyda following F. Chollet „Deep learning with Python”
Uczenie głębokie - schemat
Copyright ©2019, Joanna Szyda following F. Chollet „Deep learning with Python”
• Krok 1 wagi losowe
• Krok 2 modyfikacja wag kryterium = zmniejszenie loss score
• …. Krok n training loops
• Modyfikacja wag backpropagation algorithm
Uczenie głębokie – kod Keras
Copyright ©2019, Joanna Szyda following F. Chollet „Deep learning with Python”
> from keras import models
> from keras import layers
> network = models.Sequential()
> x_train,x_test,y_train,y_test = train_test_split(X,Y,test_size=0.2,random_state=0)
> model.add(Dense(30, input_shape=(4,), activation='relu'))
> model.add(Dense(10,activation='relu'))
> model.add(Dense(5,activation='relu'))
> model.add(Dense(3,activation='softmax')) 3 gatunki irysa (setosa, versicolor, virginica)
> model.compile(optimizer='rmsprop', loss='categorical_crossentropy', metrics=['accuracy'])
> model.fit(x_train, y_train, epochs=100)
Uczenie głębokie – kod Keras
Copyright ©2019, Joanna Szyda following F. Chollet „Deep learning with Python”
Podsumowanie klasyfikacji – confusion matrix
Przykłady Zastosowań
Box Plot
Copyright ©2019, Joanna Szyda
Deep Learning
Copyright ©2019, Joanna Szyda
VIDEO Kurs MIThttps://www.youtube.com/watch?v=JN6H4rQvwgY
Copyright ©2019, Joanna Szyda
1. Konfirmatywna, a eksploratywna analiza danych
2. Przykłady metodyki EDA
• Box plot
• QQ plot
• Analiza klasyfikacyjna
• Analiza skupień
• Uczenie maszynowe