Upload
others
View
2
Download
0
Embed Size (px)
Citation preview
Maschinelles Lernen für LaienScientifica 2019
Aus Daten werden Informationen
Unsere KernkompetenzenServices
3
Von der anfänglichen Anforderungsanalyse, bis zur technischen Umsetzung – wir begleiten Sie durch sämtliche Schritte des Daten pro zesses und helfen Ihnen, die optimale Lösung zu finden.
Datenerhebung Datenverarbeitung Datenanalyse Datenvisualisierung
Über uns
2005 2010 2014 2019
KünstlicheIntelligenz
6
Einleitung
7
Einleitung
8
Einleitung
9
Einleitung
Maschinelles Lernenim Alltag
Erwarten Sie Nachwuchs?
Supermarktkette aus den USA
Wichtiges Kundensegment: werdende Eltern
Errechneten, ob eine Kundin schwanger ist
Verschickten Gutscheine für Babyprodukte
Eklat, weil Vater von der Schwangerschaft seiner Tochter erfuhr
11
Aus dem Alltag
Wieso wollen Sie kündigen? HP berechnete für jeden Mitarbeiter eine
“Flight Risk” Score (Kündigungsrisiko)
Basierend auf Lohn, Beförderungen, Befragungen usw.
Bei hohem Risiko wird Gespräch gesucht
Sensible, spekulative HR-Daten
12
Aus dem Alltag
Haben Sie per Kreditkarte bezahlt?
Korrekte Transaktionen von Missbrauch unterscheiden
Missbräuchliche Transaktionen verhindern
Kontakt mit Kartenbesitzer aufnehmen
13
Aus dem Alltag
Wie entsteht einVorhersagemodell?
Workflow Maschinelles Lernen Datensatz wählen und prüfen
Zielvariable definieren
Feature Engineering
Modell auswählen und tunen
Modellgüte überprüfen
Vorhersagen machen
15
Vorhersagemodelle
Datensatz: Variablen und Fälle
16
Vorhersagemodelle
Spalte = Variable Zeile = Fall
Zielvariable definieren
17
Vorhersagemodelle
FeatureEngineering
Den Datensatz umbauen ...
Variablen bereinigen / aufsplitten / kombinieren / aggregieren
19
Feature Engineering
Modell-Auswahl
Regression – Klassifikation
Regression: Vorhersage eines Zahlenwertes
21
Vorhersagemodelle
Klassifikation: Vorhersage einer Klasse / Gruppe oder einer Klassenwahrscheinlichkeit
A
C
B
Y = f(X) + e Zielvariable Y
Funktion f der erklärenden Variablen X
Zufälliger Fehler e
f soll aus den Beispielen approximiert werden
22
Vorhersagemodelle
Beispiel BMI: Körpergewicht = Körpergrösse2 • 23 kg/m2 + e
Parametrische Modelle
Modell basiert auf wenigen definierten Parametern
z.B. Y = B0 + B1X1 + B2X2
Die Parameter werden aus den Trainingsfällen berechnet
23
Lineare Modelle
Beispiel BMI: Körpergewicht = Körpergrösse2 • 23 kg/m2
Nicht parametrische Modelle Dank gestiegener Rechenleistung in den 80ern
Keine Annahmen über f(X)
Diverse Modellfamilien (Entscheidungsbäume, SVM, neuronale Netzwerke)
Zudem neue Methoden wie Kreuzvalidierung
24
Maschinelles Lernen
Entscheidungsbäume Sequentielle Entscheidungen
Pro Entscheidung: eine Variable, ein Trennwert
Endknoten enthalten Vorhersagen
Sehr flexibel
Einfach interpretierbar
25
Maschinelles Lernen
Geschlecht männlich?
Körpergrösse> 1.80 m?
Körpergrösse > 1.70 m?
Gewicht: 80 kg Gewicht: 70 kg Gewicht: 60 kg Gewicht: 70 kg
Random Forest
Parallele Entscheidungsbäume
Neues Datensample für jeden Baum
Leicht zufällige Variablen-Auswahl
Flexibel, robust
26
Maschinelles Lernen
Künstliche neuronale Netzwerke Basierend auf biologischen Neuronen und Synapsen
Signalfluss durch ein Netzwerk
Existieren seit den 1970er Jahren
Einfache Architektur mit wenigen Ebenen
Vereinzelte Anwendungen
27
Deep Learning
Deep Learning Dank Rechenpower und Datenmengen
Unglaublich komplexe Netzwerk-Architekturen
Millionen von Parametern
Effiziente Methoden gegen Over-Fitting
Riesiger Trainingsaufwand (Zeit und GPU)
28
Deep Learning
Modellgüteprüfen
“All models are wrong, but some are useful.”
George E. P. Box
30
Modellgüte
Bias / Variance Trade-Off
31
Modellgüte
Modell so einfach wie möglich und so kompliziert wie nötig
Modellvalidierung
32
Modellgüte
Simuliert den Einsatz des Modells auf neuen Daten
Kompletter Datensatz
Trainingsdaten Testdaten
Die Bedeutung der Variablen Wie stark eine Variable die Vorhersage beeinflusst
Modellabhängige Berechnung
Skaliert auf einen Maximalwert von 100
Nicht direkt interpretierbar
33
Modellgüte
AutoML
Workflow Maschinelles Lernen Datensatz wählen und prüfen
Zielvariable definieren
Feature Engineering
Modell auswählen und tunen
Modellgüte überprüfen
Vorhersagen machen
35
Auto ML
Ziele Auto ML
Workflow automatisieren
Modellbildung auch Laien ermöglichen
Nötige Inputs: Datensatz, Zielvariable, (Budget)
36
Auto ML
Auto ML Software
37
Auto ML
Auto WEKA
TPOT
Auto-sklearn
H2O AutoML
Auto Keras
Google AutoML Tables (Beta)
Sammelt Datensätze, Tasks und Resultate
“Einfache Modelle” bereits sehr gut
Datensatz ist entscheidend
Feature Engineering extrem wichtig
38
Auto ML
https://demo.predictoor.com
39
Auto ML
Herausforderungen undEthische Aspekte
Datenkontext
41
Herausforderungen
Filter-Bubbles
42
Herausforderungen
Akzeptanz / Privatsphäre
43
Herausforderungen
Vorurteilsfreie Modelle?
44
Herausforderungen
https://www.propublica.org/article/machine-bias-risk-assessments-in-criminal-sentencing
Was denkenSie?
Herzlichen Dank fürIhr Interesse!
Thomas Maier+41 44 289 92 [email protected]
Datahouse AGBleicherweg 58001 Zürich
www.datahouse.ch
1. September 2019
Daniel Meister+41 44 289 92 [email protected]
Datahouse AGBleicherweg 58001 Zürich
www.datahouse.ch