13
Formation Actuaire Data-Scientist PROGRAMME 15 Septembre 2014 Arthur Charpentier, Romuald Élie & Jérémie Jakubowicz 15914

Formation Actuaire Data-Scientist PROGRAMME · Formation Actuaire Data-Scientist PROGRAMME •15 Septembre 2014 •Arthur Charpentier, Romuald Élie & Jérémie Jakubowicz 15914 &

  • Upload
    others

  • View
    5

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Formation Actuaire Data-Scientist PROGRAMME · Formation Actuaire Data-Scientist PROGRAMME •15 Septembre 2014 •Arthur Charpentier, Romuald Élie & Jérémie Jakubowicz 15914 &

Formation

Actuaire Data-Scientist

PROGRAMME

• 15 Septembre 2014

• Arthur Charpentier, Romuald Élie & Jérémie Jakubowicz

15-­‐9-­‐14  

Page 2: Formation Actuaire Data-Scientist PROGRAMME · Formation Actuaire Data-Scientist PROGRAMME •15 Septembre 2014 •Arthur Charpentier, Romuald Élie & Jérémie Jakubowicz 15914 &

Séance  inaugurale  :      

-­‐  révolu-on  numérique  -­‐  besoins  des  entreprises  -­‐  cadre  réglementaire  -­‐  éthique  et  normes  

 3  blocs  pédagogiques  :    

-­‐  cours  et  TD  (114  h)  -­‐  approfondissements  et  applica-ons  aux  mé-ers  de  l’assurance  (40  h)  -­‐  réalisa-on  d’un  projet  individuel  sur  un  sujet  actuariel  

 Rythme  :                            2  jours  par  mois  comportant  à  la  fois  cours  et  cas  pra-ques                                                              début  du  projet  à  mi-­‐parcours                                                                    

Programme

15-­‐9-­‐14  susceptible d’ajustements  

Page 3: Formation Actuaire Data-Scientist PROGRAMME · Formation Actuaire Data-Scientist PROGRAMME •15 Septembre 2014 •Arthur Charpentier, Romuald Élie & Jérémie Jakubowicz 15914 &

A)  Éléments logiciels et programmation Python ~ 18h

B)  Datamining et programmation R ~ 18h

C)  Algorithmique en Machine Learning et mise en situation ~ 24h

D)  Fondements théoriques de l’apprentissage statistique ~ 24h

E)  Machine Learning distribué et applications ~ 12h

F)  Extraction, utilisation et visualisation des données ~ 18h

Applications aux métiers de l’assurance ~ 40h

* nombre d'heures à titre indicatif

Programme

15-­‐9-­‐14    susceptible d’ajustements  

Page 4: Formation Actuaire Data-Scientist PROGRAMME · Formation Actuaire Data-Scientist PROGRAMME •15 Septembre 2014 •Arthur Charpentier, Romuald Élie & Jérémie Jakubowicz 15914 &

A) Éléments logiciels et programmation Python ~ 18h

Objectif : Introduction au langage Python et sensibilisation aux grandeurs informatiques pertinentes. Éléments de programme :

Initiation à la programmation Python Programmation objet, classes, héritage Bibliothèque des méthodes statistiques usuelles Éléments logiciels pour grandes bases de donnée Hardware, performance machine et gestion de mémoire Efficacité d'un algorithme Complexité, accès mémoire, ordres de grandeur

Programme

15-­‐9-­‐14  susceptible d’ajustements  

Page 5: Formation Actuaire Data-Scientist PROGRAMME · Formation Actuaire Data-Scientist PROGRAMME •15 Septembre 2014 •Arthur Charpentier, Romuald Élie & Jérémie Jakubowicz 15914 &

B) Datamining et programmation R ~ 18h

Objectif : Présenter les outils classiques d'exploration de données, sous un angle essentiellement descriptif. Ces cours permettra une remise à niveau en R, en rappelant, durant les premières heures, les bases de la programmation en R. Éléments de programme :

Manipuler des données sous R : données continues, facteurs (recodification), dates, heures Bases de la programmation avancée en R Méthodes non-supervisées Analyse factorielle et détection de clusters

Programme

15-­‐9-­‐14  susceptible d’ajustements  

Page 6: Formation Actuaire Data-Scientist PROGRAMME · Formation Actuaire Data-Scientist PROGRAMME •15 Septembre 2014 •Arthur Charpentier, Romuald Élie & Jérémie Jakubowicz 15914 &

C) Algorithmique en machine learning et mise en situation ~ 24h

Objectif : Approche par mise en situation via la participation à un concours type Kaggle. Présentation des différentes phases : exploration, sélection/transformation des données, algorithmes d’apprentissage, visualisation Éléments de programme :

Étude de cas Exploration/ Sélection / Transformation / Nettoyage des données Principaux algorithmes de Machine Learning (contexte de Classification) K-NN, Régression Logistique, SVM Forêts aléatoires, Réseaux de Neurones Boosting, Bagging Procédures de validation / sélection de modèle Visualisation Retour d’expérience et analyse des résultats

Programme

15-­‐9-­‐14  susceptible d’ajustements  

Page 7: Formation Actuaire Data-Scientist PROGRAMME · Formation Actuaire Data-Scientist PROGRAMME •15 Septembre 2014 •Arthur Charpentier, Romuald Élie & Jérémie Jakubowicz 15914 &

D) Fondements théoriques de l’apprentissage statistique ~ 24h

Objectif : Présenter les fondements mathématiques des principales méthodes de Machine learning Éléments de programme : Théorie de la décision, Perte, risque, risque empirique Modèle statistique pour la classification binaire, Approches génératives vs. discriminantes Machine Learning, Méthodes paramétriques, perceptron, partitionnement Algorithmes de classification de données massives, Convexification du risque, boosting et SVM Méthodes ascendantes et descendantes, Critères AIC et BIC Régression linéaire: limites et améliorations : Parcimonie. Régression pas à pas Approche par pénalisation: ridge, lasso... Modèles linéaires généralisés, Méthodes de régression alternatives, Approche non linéaire: polynômes locaux, ondelettes Régression PLS et CART

Programme

15-­‐9-­‐14    susceptible d’ajustements  

Page 8: Formation Actuaire Data-Scientist PROGRAMME · Formation Actuaire Data-Scientist PROGRAMME •15 Septembre 2014 •Arthur Charpentier, Romuald Élie & Jérémie Jakubowicz 15914 &

E) Machine Learning distribué et applications ~ 12h

Objectif : Pour passer à l’échelle, les algorithmes de Machine Learning vus dans les cours précédents doivent être repensés. Un cadre efficace est celui des algorithmes distribués où on utilise plusieurs entités de calculs pour mener à bien l’objectif initial. L’objectif de ce cours sera de présenter différents exemples d’algorithmes de Machine Learning distribués Éléments de programme :

Algorithmes distribués : généralités Le cas de Map-Reduce Applications en Machine Learning

Programme

15-­‐9-­‐14  susceptible d’ajustements  

Page 9: Formation Actuaire Data-Scientist PROGRAMME · Formation Actuaire Data-Scientist PROGRAMME •15 Septembre 2014 •Arthur Charpentier, Romuald Élie & Jérémie Jakubowicz 15914 &

F) Extraction, utilisation et visualisation des données ~ 18h

Objectif : Description des enjeux économiques et sociétaux de la révolution numérique du Big Data. Présentation des architectures de bases ou entrepôts de données, ainsi que des techniques d'exploration associées pour la récolte des données. Sensibilisation aux questions éthiques sous-jacentes, aux contraintes juridiques européennes et au rôle de la CNIL. Présentation des principales méthodes de visualisation des données complexes. Éléments de programme :

Écosystème des données massives SQL vs NoSQL Anonymisation de données, Protection des données personnelles, enjeux économiques Visualisation des données

Programme

15-­‐9-­‐14  susceptible d’ajustements  

Page 10: Formation Actuaire Data-Scientist PROGRAMME · Formation Actuaire Data-Scientist PROGRAMME •15 Septembre 2014 •Arthur Charpentier, Romuald Élie & Jérémie Jakubowicz 15914 &

Objectif : Présentations de sujets « métier » et mises en situation via des interventions courtes, et techniques, (2 à 4 h) sur des thématiques précises.

Exemples :

l Cartographie et GPS l Géolocalisation et anonymisation l Traitement de données textuelles l Health monitoring l Détection de fraude l Applications en Génomique l Investissement séquentiel en gestion de portefeuille l Enchère web l Réseaux de neurone & e-commerce l Calcul du capital économique en grande dimension l Vente d’assurance en ligne l Visualisation de données et réseaux sociaux l Biosécurité l Parallélisassions massive pour la simulation Monte Carlo

Applica;ons  aux  mé;ers  de  l’assurance              Approfondissements  et  études  de  cas    ~  40h  

15-­‐9-­‐14  susceptible d’ajustements  

 

Page 11: Formation Actuaire Data-Scientist PROGRAMME · Formation Actuaire Data-Scientist PROGRAMME •15 Septembre 2014 •Arthur Charpentier, Romuald Élie & Jérémie Jakubowicz 15914 &

* calendrier donné à titre purement indicatif

Planning (susceptible d’ajustements)

15-­‐9-­‐14  

Page 12: Formation Actuaire Data-Scientist PROGRAMME · Formation Actuaire Data-Scientist PROGRAMME •15 Septembre 2014 •Arthur Charpentier, Romuald Élie & Jérémie Jakubowicz 15914 &

Réalisation d’un projet

�  Les participants à la formation réaliseront un projet visant à exhiber l'apport de ces nouvelles méthodologies statistiques et informatiques pour la modélisation d'un phénomène actuariel

�  Projet réalisé sous le tutorat d’un membre du corps enseignant de la formation

�  Projet réalisé sur la deuxième moitié de la formation

�  Rédaction d’un rapport et soutenance devant un jury de membres du corps enseignant ainsi que l’ensemble de la promotion (sauf conflit trop important pour cause de confidentialité).

15-­‐9-­‐14  

Page 13: Formation Actuaire Data-Scientist PROGRAMME · Formation Actuaire Data-Scientist PROGRAMME •15 Septembre 2014 •Arthur Charpentier, Romuald Élie & Jérémie Jakubowicz 15914 &

Validation de la formation

�  Plusieurs examens ou Qcm au cours de la formation, pour valider l’acquisition de blocs précis de compétences en data science

�  Réalisation et soutenance d’un projet mettant en application les compétences acquises à des problématiques actuarielles

�  Obtention du diplôme Actuaire Data Scientist de l’Institut du Risk Management

15-­‐9-­‐14