13
NASI SPONSORZY I PARTNERZY DZIĘKUJEMY!

SQL DAY 2012 | DEV Track | Session 9 - Data Mining Analiza Przepływowa by M.Szeliga

Embed Size (px)

DESCRIPTION

 

Citation preview

Page 1: SQL DAY 2012 | DEV Track | Session 9 - Data Mining Analiza Przepływowa by M.Szeliga

NASI SPONSORZY I PARTNERZY

DZIĘKUJEMY!

Page 2: SQL DAY 2012 | DEV Track | Session 9 - Data Mining Analiza Przepływowa by M.Szeliga

Analiza komórek w cytofluorymetrii przepływowej przy pomocy narzędzi

Data Mining serwera SQL 2012

Marcin Szeliga

Page 3: SQL DAY 2012 | DEV Track | Session 9 - Data Mining Analiza Przepływowa by M.Szeliga

MarcinSzeliga:Bio.ToPP()

• +15 lat doświadczenia z serwerem SQL

• Trener & konsultant • Autor książek i artykułów • SQL Microsoft

Most Valuable Professional (od 2006)

• Microsoft Specialist (od 2000)

Page 4: SQL DAY 2012 | DEV Track | Session 9 - Data Mining Analiza Przepływowa by M.Szeliga

Cele projektu

• Wykazanie przydatności automatycznej analizy danych zebranych w FCM

− FCM jest podstawową techniką identyfikacji subpopulacji komórek w szpiku kostnym i krwi obwodowej, służącą do ustalenia diagnozy oraz monitorowania leczenia w różnego typu białaczkach

• Segmentacja danych pod kątem obecności nieprawidłowych subpopulacji komórek

• Automatyczna klasyfikacja znalezionych subpopulacji i ich opis statystyczny

• Wyszukiwanie komórek nie pasujących do klastrów komórek prawidłowych, z ich oceną ilościową i statystyczną

• Monitorowanie leczenia i ocena tzw. choroby resztkowej

• Ocena zmian subpopulacji komórek u tego samego pacjenta w trakcie leczenia

Prezentacja Betacom S.A. 4

Page 5: SQL DAY 2012 | DEV Track | Session 9 - Data Mining Analiza Przepływowa by M.Szeliga

Dane

Proces eksploracji danych

Zrozumienie

problemu

Poznanie

danych

Przygotowanie

danych

Utworzenie

modeli

Ocena

wyników

Wdrożenie

5

Page 6: SQL DAY 2012 | DEV Track | Session 9 - Data Mining Analiza Przepływowa by M.Szeliga

Problem

Prezentacja Betacom S.A. 6

• Jak wybrać charakterystyczne komórki? − Metoda bramkowania jest nieobiektywna

− Bramki wyznaczane są arbitralnie przez osobę przeprowadzającą analizę

− Bramki ustawiane są sekwencyjnie, co prowadzi do utraty cennych danych − Ryzyko przeoczenia istotnych dla diagnozy i monitorowania

leczenia danych

− Bramkowanie nie umożliwia analizy złożonych danych − Standardem stają się badania jednocześnie 6-9 antygenów

− Interakcje pomiędzy badanymi czynnikami są tak złożone, że metody analizy przy użyciu dwuwymiarowych wykresów punktowych zawodzą

• Jak oceniać efekty leczenia? − Eliminując z analizy 99% danych zmniejszamy

szansę wykrycia choroby resztkowej

Page 7: SQL DAY 2012 | DEV Track | Session 9 - Data Mining Analiza Przepływowa by M.Szeliga

Dane

Prezentacja Betacom S.A. 7

• Dane źródłowe zebrano przy użyciu 9-kanałowego cytofluorymetru o 18-bitowej rozdzielczości:

− 17 pacjentów z białaczką (2 266 440 komórek)

− 17 pacjentów w remisji (1 248 712 komórek)

• Oprócz pacjentów w remisji oraz z ostrą białaczką limfoblastyczną, dane źródłowe pochodziły również od pacjentów na różnym etapie leczenia

− U kilku z nich procent komórek białaczkowych nie przekraczał 3%

• Ocena poprawności i reprezentatywności danych źródłowych

• Wyeliminowanie błędnych danych

Page 8: SQL DAY 2012 | DEV Track | Session 9 - Data Mining Analiza Przepływowa by M.Szeliga

Model wyboru komórek

Dane źródłowe

Eliminacja błędów FSC-A < 250000 SSC-A < 200000

Pierwsza segmentacja (FSC-A, SSC-A, CD19)

Klastry CD19+ i CD19++ (Leukemia 67% Remission 36%)

Około 80%

Klastry CD19-

Właściwa segmentacja (Wszystkie zmienne)

Około 15%

Prezentacja Betacom S.A. 8

Page 9: SQL DAY 2012 | DEV Track | Session 9 - Data Mining Analiza Przepływowa by M.Szeliga

Model oceny komórek

Właściwa segmentacja (Wszystkie zmienne)

Klastry typowych komórek

Klastry komórek aberrantnych

Klastry komórek

mieszanych

Klasyfikacja

Komórki aberrantne

Ocena porównawcza (wykresy)

Komórki typowe

Prezentacja Betacom S.A. 9

Page 10: SQL DAY 2012 | DEV Track | Session 9 - Data Mining Analiza Przepływowa by M.Szeliga

Zastosowanie modeli w diagnostyce

Dane pacjenta

Eliminacja błędów FSC-A < 250000 SSC-A < 200000

Sprawdzenie przynależności do klastrów CD19+ lub CD19++

65%

Komórki CD19-

Wykrycie nietypowych komórek 1%

Komórki nietypowe

30%

Sprawdzenie przynależności do głównych klastrów

Klasyfikacja

Komórki typowe Komórki białaczkowe

Klastry komórek białaczkowych

Klastry komórek mieszanych

Klastry typowych komórek

Prezentacja Betacom S.A. 10

Page 11: SQL DAY 2012 | DEV Track | Session 9 - Data Mining Analiza Przepływowa by M.Szeliga

Ocena wyników

Prezentacja Betacom S.A. 11

• Ogólna dokładność modelu wyniosła ponad 82% − Docelowo dokładność przekroczy 90%

• Wiarygodność poprawnych klasyfikacji wyniosła 99,7%

• Wiarygodność błędnych klasyfikacji wyniosła 98,7% − Dla większej i bardziej zróżnicowanej grupy pacjentów może spaść o kilka

procent

• Przydatność: − Analiza skupień komórek pozwoliła osiągnąć wyniki co najmniej tak samo

dobre jak dotychczas stosowane metody bramkowania

− Możliwość wiarygodnego opisu statystycznego zidentyfikowanych subpopulacji komórek (w tym ich liczebności)

− Możliwość określenia prawdopodobieństwa przynależności danej komórki do znalezionych klastrów

− Zastosowana metoda pozwoliła nie tylko wyselekcjonować abberrantne i białaczkowe komórki, ale również podać powód i stopień ich nietypowości

Page 12: SQL DAY 2012 | DEV Track | Session 9 - Data Mining Analiza Przepływowa by M.Szeliga

SQLDay 2012

Dziękując Państwu za olbrzymie zainteresowanie polską premierą Microsoft SQL Server 2012, firma Microsoft wspólnie z wydawnictwem Helion przygotowała dla Państwa 300 egzemplarzy* darmowego e-booka „SQL Server. Modelowanie i eksploracja danych”. Aby pobrać e-booka, należy wejść na stronę http://helion.pl/sqlserver2012.phtml a następnie: 1.Zalogować się (lub zarejestrować, jeżeli nie macie Państwo konta w wydawnictwie Helion) 2.Wpisać kod promocyjny Microsoft „NowaGwiazdaSQLServer2012” – uwzględniając duże litery 3.Pobrać książkę w dogodnym dla Państwa formacie. *oferta ważna do wyczerpania zapasów Mamy nadzieję, że lektura e-booka jeszcze bardziej przybliży Państwu możliwe obszary zastosowania SQL Server do modelowania i eksploracji danych W imieniu zespołu Microsoft Server & Tools dr Sławomir Strzykowski Application Platform Product Manager [email protected]

Page 13: SQL DAY 2012 | DEV Track | Session 9 - Data Mining Analiza Przepływowa by M.Szeliga

NASI SPONSORZY I PARTNERZY

DZIĘKUJEMY!