41
Cours de méthodes de scoring- Hassen MATHLOUTHI Page 1 UNIVERSITE DE CARTHAGE ECOLE SUPERIEURE DE STATISTIQUE ET D’ANALYSE DE L’INFORMATION Cours de méthodes de scoring Préparé par Hassen MATHLOUTHI Année universitaire 2013-2014

Cours scoring

Embed Size (px)

Citation preview

Page 1: Cours scoring

Cours de méthodes de scoring- Hassen MATHLOUTHI Page 1

UNIVERSITE DE CARTHAGE

ECOLE SUPERIEURE DE STATISTIQUE ET D’ANALYSE DE L’INFORMATION

Cours de méthodes de scoring Préparé par Hassen MATHLOUTHI

Année universitaire 2013-2014

Page 2: Cours scoring

Cours de méthodes de scoring- Hassen MATHLOUTHI Page 2

AVANT PROPOS

Ce cours polycopié sur les méthodes de scoring est le résultat d’une

expérience d’enseignement de ce module durant ces dernières années à l’Ecole de Statistique et d’Analyse de l’Information

Il profite également de l’expérience acquise à travers l’encadrement dans la

même école de projets de fin d’études ayant porté sur des applications de gestion qui ont utilisé les méthodes de scoring.

Ce cours reste néanmoins très incomplet. Il ne traite en effet en tout que

deux méthodes de scoring qui sont la méthode d’analyse discriminante de Fisher et la méthode de discrimination logistique. Ces deux méthodes sont les plus connues mais d’autres méthodes également intéressantes existent dans la littérature statistique et devraient être aussi étudiées par tout lecteur cherchant à approfondir ses connaissances en la matière.

Il reste également assez théorique. En effet, les considérations d’ordre

pratique liées notamment à l’échantillonnage et aux techniques de sélection des variables explicatives ne sont que partiellement ou pas du tout abordées.

D’autre part et quoique ayant fait l’objet de plusieurs lectures et de

vérifications, ce cours risque de contenir quelques erreurs mathématiques (et erreurs de langue aussi). Je serais très reconnaissant aux lecteurs me signalant les éventuelles erreurs ou incompréhensions.

L’auteur

Page 3: Cours scoring

Cours de méthodes de scoring- Hassen MATHLOUTHI Page 3

TABLE DE MATIERES

Désignation Page

Avant propos 2 Chapitre1 : Introduction générale 4

• 1. Présentation des méthodes de scoring • 2. Démarche pratique • 3. Portée et limites

4 6 7

Chapitre 2 : L’approche géométrique 9 • 1. Position du problème et notation • 2. Concepts de base • 3. Principe de classement

9 11 16

Chapitre 3 : Classifieurs Bayesiens 19 • 1. Eléments de la théorie de la décision • 2. Classifieur de Bayes • 3. Mise en application

19 22 24

Chapitre 4 : Analyse discriminante de Fisher 26 • 1. Présentation • 2. Modélisation • 3. Estimation

26 26 28

Chapitre 5 : Analyse discriminante logistique 29 • 1. Présentation • 2. Modélisation • 3. Estimation

29 31 31

Chapitre 6 : Validation d’un modèle de scoring 33 • 1. Concepts de base • 2. Principaux outils • 3. Illustration

33 35 39

Bibliographie. 41

Page 4: Cours scoring

Cours de méthodes de scoring- Hassen MATHLOUTHI Page 4

Chapitre 1

INTRODUCTION GENERALE

Cette introduction générale a pour but de présenter l’objet des méthodes de scoring ainsi que leurs principales applications en gestion. La portée et les limites de ces méthodes ainsi que la démarche pratique pour leur mise en œuvre sont également discutées.

1. PRESENTATION

Dans cette présentation des méthodes de scoring, nous nous proposons de définir l’objet de ces méthodes. Nous examinons par la suite les principales applications des dites méthodes dans le domaine de la gestion des entreprises.

1.1 Objet

Selon le langage courant, le terme score peut signifier « classement », « résultat », « marque » etc. En statistique, c’est l’idée de « classement » qui est surtout retenue.

Le scoring (statistique) se présente en effet comme un ensemble de

méthodes conduisant à un classement d’individus au sein de groupes préalablement définis.

La notion de classement mérite à son tour d’être élucidée compte tenu des

confusions souvent constatées avec le terme « classification ». Ce dernier terme signifie en effet la mise en évidence de groupements inconnus dans une population. En revanche, un classement désigne toute méthode d’affectation des individus d’une population dans des groupes définis à priori.

Formellement, étant donné un ensemble d’individus pouvant être décrits

par un certain nombre de variables. Ces individus se répartissent entre quelques groupes définis à priori. Un individu se présente. On ne connait pas son groupe d’appartenance. Peut-on, sur la base des observations qu’il présente vis-à-vis des variables considérées, prévoir le groupe auquel il appartient ?

C’est le problème auquel les méthodes de scoring cherchent à donner une

solution. Une méthode de scoring se présente en effet comme une technique statistique permettant de classer un individu dans l’un des quelques groupes définis à priori et ce au vu de certaines caractéristiques de cet individu.

Page 5: Cours scoring

Cours de méthodes de scoring- Hassen MATHLOUTHI Page 5

Il s’agit bien d’une méthode de classement statistique car elle est basée d’abord sur un traitement statistique des données issues d’un échantillon d’individus. D’autre part, les facteurs derrière l’appartenance d’un individu à tel ou tel autre groupe reste en partie inconnus.

En fait, les méthodes de scoring relèvent de méthodes générales de classement statistiques (et non de classification) comme l’analyse discriminante, la régression logistique, etc. 1.2 Domaines d’application

Les techniques de scoring sont appliquées dans plusieurs domaines comme la médecine, l’agronomie, l’archéologie, l’informatique, la gestion des entreprises, etc.

Dans ce dernier domaine, deux principaux types de score sont utilisés : le score d’appétence et le score de risque. 1.2.1 Score d’appétence

Utilisé notamment en marketing, le score d’appétence est une mesure de la propension d’acheter d’un client.

En pratique, on utilise notamment ce type de score pour apprécier la probabilité d’un client d’être intéressé par un nouveau produit.

En effet, dans les domaines où il est possible d’atteindre directement (par email, SMS, ou par voie postale par exemple) un grand nombre de clients potentiels (téléphonie, services bancaires, etc.), la promotion de nouveaux produits gagnerait à être ciblée auprès des clients les plus intéressés.

Dans ce contexte, on est ainsi en présence de deux groupes : celui des

clients qui sont intéressés par le nouveau produit et celui des clients qui ne le sont pas.

La construction d’un score d’appétence permet alors de prévoir le groupe

d’appartenance des différents clients de l’entreprise au vu de leur caractéristiques et partant : • De n’atteindre que les clients les plus réceptifs • D’éviter d’importuner les clients non intéressés

Ce qui assure une utilisation optimale du budget alloué à cet effet.

Page 6: Cours scoring

Cours de méthodes de scoring- Hassen MATHLOUTHI Page 6

1.2.1 Score de risque

Le score de risque ou de comportement est une mesure de la probabilité pour un client de subir un certain événement défavorable pou l’entreprise.

L’exemple typique est le crédit scoring utilisé par les banques pour

apprécier les risques de non remboursement des crédits accordés à leurs clients. Dans ce contexte, les groupes en présence sont le groupe des « bons clients » et celui des « mauvais clients ». Une méthode de scoring se présente alors comme un précieux outil d’aide à la décision à la disposition des banquiers leur permettant lors de demandes de crédit par leur clients de détecter si ces derniers présentent ou non un grand risque de non remboursement.

Ce type de score peut être aussi utilisé par les compagnies d’assurance pour apprécier le niveau de sinistralité d’un nouveau client.

L’utilisation d’un score de risque permet ainsi de réduire les impayés. Elle permet également de fournir les bases d’une tarification du risque. 2. DEMARCHE PRATIQUE

La mise en place d’un système de scoring passe par un certain nombre d’étapes qu’il convient de réaliser.

2.1 Cas du score d’appétence

Pour fixer les idées considérons le cas d’une entreprise de téléphonie qui projette de lancer un nouveau service (par exemple téléphoner à moitié prix entre 22 heures et six heures du matin moyennant une cotisation mensuelle de 5 dinars).

Comment procède t – elle pour faire connaitre ce nouveau produit ? La solution la plus facile est d’envoyer un SMS présentant ce produit à l’ensemble des abonnés. Cette solution n’est pas évidemment la plus appropriée car un certain nombre de ces abonnés n’est pas intéressé.

Il serait plus judicieux de distinguer au préalable entre les clients non intéressés et les clients intéressés et procéder par la suite à la promotion du nouveau produit auprès de ces derniers. • Extraction d’un échantillon de la base des données des clients de l’entreprise • Dans le cadre d’une enquête, présenter le nouveau produit aux clients de l’échantillon et solliciter leur niveau d’appétence.

Page 7: Cours scoring

Cours de méthodes de scoring- Hassen MATHLOUTHI Page 7

• Utiliser la moitié des données de l’échantillon (données indiquées par la base d’une part et niveau d’appétence fournies par l’enquête d’autre part) pour modéliser le score d’appétence (expliquer le niveau d’appétence comme une fonction des caractéristiques des clients) • Utiliser l’autre moitié des données de l’échantillon pour valider le modèle de scoring spécifié. • Calculer le score pour l’ensemble des clients • Cibler les clients les plus scorés compte tenu du budget alloué. 2.2 Cas du score de risque

La mise en place d’un système de crédit scoring dans une banque passe à

priori par les étapes suivantes :

• Extraire dans les dossiers de crédits accordés dans le passé un échantillon de « bons clients » et de « mauvais clients » NB : On ne cherche pas à respecter la structure de la population entre « bons » et « mauvais » clients. On considère plutôt pour le besoin de la modélisation un échantillon plus ou moins également réparti.

• Analyse préliminaire des données issues de l’échantillon choisi (élimination des erreurs et incohérences, recodage des variables, sélection des variables explicatives, etc.)

• Utilisation de la moitié des données de l’échantillon pour modéliser le score de risque (explication de la probabilité d’être un mauvais client comme une fonction de ses caractéristiques)

• Utilisation de l’autre moitié des données de l’échantillon pour valider le modèle de scoring spécifié.

• Fixation d’un seuil de score en déca du quel un client est considéré comme « mauvais ».

NB : Ce seuil est généralement fixé à travers un calcul économique. • Application du modèle adopté sur les nouvelles demandes de crédits.

3. PORTEE ET LIMITES

En pratique, on pourrait utiliser d’autres méthodes plus ou moins subjectives pour apprécier la probabilité d’appartenance d’un individu à un groupe donné.

Par rapport à ces méthodes, les techniques statistiques de scoring présentent un certain nombre d’avantages et inconvénients dont les principaux sont présentés ci après.

Page 8: Cours scoring

Cours de méthodes de scoring- Hassen MATHLOUTHI Page 8

3.1 Principaux avantages

Par rapport à un système de notation subjective, le scoring statistique présente les avantages suivants : • Evaluation quantitative de la probabilité d’appartenance ce qui permet d’ordonner les individus. • Caractère immuable (fixe) des résultats • Cohérence des résultats : deux individus ayant les mêmes caractéristiques auront le même score. • Caractère explicite : méthodologie d’évaluation pouvant être clairement présentée. • Prise en compte de plusieurs facteurs de risque. • Aptitude d’être testée au préalable • Explication du lien existant entre le niveau de risque et les facteurs de risque • Aptitude à donner lieu à des calculs sur les effets sur la rentabilité de l’entreprise. 3.2 Principaux inconvénients

Les méthodes statistiques de scoring soufrent néanmoins de quelques insuffisances dont entre autres : • La décision pouvant être prise suite à l’utilisation des méthodes de scoring est basée sur une probabilité et non sur une certitude • Les méthodes statistiques de scoring supposent comme toute autre méthode statistique que le futur est identique au passé. • Le risque est expliqué par les seules variables disponibles • Il existe un vrai problème de biais de sélection dans l’élaboration d’une méthode de crédit scoring. En effet, les dossiers refusés ne sont pas pris en considération. • L’application d’un système de scoring nécessite un grand nombre de données et de variables statistiques et serait de ce fait impossible à réaliser sans l’outil informatique. • La mise en place d’un système de scoring dans une entreprise n’est pas toujours facile à réaliser du fait de la nécessité de son intégration informatique avec les autres systèmes d’information. Remarque : dans tous les cas, il convient de se rappeler que la statistique est juste un outil d’aide à la prise de décision et ne permet en aucun cas d’arrêter cette décision.

Page 9: Cours scoring

Cours de méthodes de scoring- Hassen MATHLOUTHI Page 9

Chapitre 2

APPROCHE GEOMETRIQUE Ce chapitre présente la méthode de scoring la plus intuitive. Il s’agit en

effet d’une méthode simplement basée sur des outils géométriques et statistiques.

La règle d’affectation qui se déduit de cette approche géométrique se

présente comme un cas particulier important de la méthode d’analyse discriminante de Fisher qui sera examinée en détail plus loin dans ce cours.

1. NOTATION ET POSITION DU PROBLEME

L’objet de cette section est de placer le problème de classement dans un

cadre géométrique. Pour ce faire, nous devons au préalable fixer les notations.

1.1 Notations

On considère une population E composée de n individus. On collecte auprès de ces individus des données relatives à p variables quantitatives. La donnée relative à la variable j chez l’individu i est notée xi,j

L’ensemble des données collectées peut alors être représenté par un tableau

ayant la forme suivante : x1,1 x1,2 … x1,j … x1,p x2,1 x2,2 … x2,j … x2,p … … … … … … xi,1 xi,2 … xi,j … xi,p … xn,1 xn,2 … xn,j … xn,p

où par convention, on a placé les p données relatives à l’individu i dans la ligne n° i (et donc les n données concernant la variable j dans la colonne n° j)

Pour la formalisation mathématique, ce tableau est identifié à une matrice

X de n et p dimensions. De même, on identifie la colonne n° j de ce tableau, représentant la variable j, à un point de Rn qu’on note Xj . Pareillement, on identifie la ligne n° i représentant l’individu i de ce même tableau à un point de Rp . Ce point est noté X(i)

Page 10: Cours scoring

Cours de méthodes de scoring- Hassen MATHLOUTHI Page 10

Les points variables Xj forment un nuage de p points dans de Rn. Il en est de même en ce qui concerne les points individus qui forment un nuage de n points de Rp.

X =

����

��,� ��,� … . ��,� … ��,���,� ��,� … . ��,� … ��,�… . … … … … … … … … .� ,� � ,� … . � ,� … � ,�… … … … … … … … … … .��,� ��,� … . ��,� … ��,� ����

, Xj = ����

��,���,�…� ,�… .��,�����

et X(i) = ����

� ,�� ,�…� ,�… .� ,�����

Illustration géométrique : On considère un nuage de 5 individus décrits par deux variables ( p=2)

On observe également auprès de chacun des n individus son appartenance à

l’un des m groupes E1, E2,…,Ek, …,Em définis à priori. Un individu appartient à un et un seul groupe. On a ainsi :� �� � ����� et Ek ∩ El = ∅ ∀ k≠ l. Si on note n1, n2,…,nk, …,nm les effectifs respectifs des m groupes considérés, on a ainsi : ∑ �� � �����

Les données disponibles concernent aussi les poids pi associés à chaque

individu i. Ce poids mesure l’importance relative de l’individu dans l’analyse à effectuer. On a par définition :

� � 0 � � � 1 à � ! " � �

��� 1

Un cas particulier important est celui où les poids sont uniformes :

� � 1� � � � 1 à �

-6

-4

-2

0

2

4

6

-4 -2 0 2 4 6

Page 11: Cours scoring

Cours de méthodes de scoring- Hassen MATHLOUTHI Page 11

Remarques • Le poids d’un groupe est naturellement défini par la somme des poids des

individus format ce groupe : #� � ∑ � $%& .

• Dans le cas uniforme #� � �&� Les poids associés aux groupes ne sont

pas uniformes car les effectifs des groupes ne sont pas en général égaux. 1.2 Position du problème

Etant donné un nouvel individu dont on ne connait pas le groupe d’appartenance. Soit x ='� ,� � ,� … . � ,� … � ,�(′ ses coordonnées.

Le problème posé consiste à prévoir le groupe d’appartenance de cet

individu au vu de ses caractéristiques définies par x. Il convient de signaler qu’il s’agit d’une prévision et non d’une

détermination du groupe d’appartenance. Il y’a donc un risque de procéder à un classement erroné.

2 CONCEPTS DE BASE

Utilisant le système de notation sus présenté nous donnons dans ce qui suit les concepts statistiques et géométriques nécessaires pour définir la méthode de classement considérée.

2.1 Moyennes arithmétiques et centre de gravité

Pour chaque variable Xj on calcule sa moyenne arithmétique

�)� � " � � ,��

��

NB : Dans le cas uniforme, cette formule prend la forme habituelle

�)� � ∑ � ,�� ���

Le vecteur g des p moyennes arithmétiques est appelé centre de gravité du

nuage des individus : g = (�)�, �)�, … , �)� , … , �)�(′. Ce point définit un nouvel

Page 12: Cours scoring

Cours de méthodes de scoring- Hassen MATHLOUTHI Page 12

individu. C’est l’individu moyen. Dans la suite, on suppose que g = (0,0,…,0)’. Cette hypothèse a l’avantage de simplifier les calculs sans modifier les résultats de l’analyse. Remarque : Pour satisfaire cette hypothèse en pratique, on commence par centrer le nuage des individus. On pose à cet effet � ,� � * ,� + *,� où les * ,� désignent les données initiales.

On calcule également pour chaque variable Xj sa moyenne arithmétique dans chaque groupe k �)�� � ∑ �- . -,/-01& 2& :

Cela permet de définir un centre de gravité pour le sous nuage associé à ce

groupe, soit gk = '�)��, �)��, … , �)� �, … , �)��(′

Remarque : avec des poids uniformes, on a :

�)�� � ∑ � ,� 0%&��

Ce point de Rp s’identifie ainsi avec l’individu moyen du groupe k. On le

considère comme le représentant de ce groupe.

On a la propriété suivante : La moyenne de la population coïncide avec la moyenne pondérée des moyennes des groupes, les pondérations étant les importances numériques des groupes :

�)� � " #��)���

���

Il s’ensuit que : 3 � ∑ #�3����� (= 0 si le nuage est centré)

Page 13: Cours scoring

Cours de méthodes de scoring- Hassen MATHLOUTHI Page 13

2.2 Matrice de variances et covariances

La variance de la variable j est définie par :

4� � " � �

��'� ,� + �56 (²

soit en développant 4� � '∑ � � �� � ,�� ( + �56 ²

Remarque : Avec des données centrées, on a 4� � ∑ � � �� � ,�� .

Lorsqu’en plus les poids sont uniformes, la formule se simplifie

davantage :

4� � ∑ � ,��� ��� � 1� 7� ′7�

La covariance des variables j et h est donnée par :

8�,9 � " � �

��:� ,� + �56 ;'� ,9 + �)9(

NB : Avec des poids uniformes, on a :

8�,9 � ∑ � ,�� ,9� �� � + �)��)9

ou encore si le nuage est centré :

8�,9 � ∑ � ,�� ,9� �� � � 1� 7′�79

On note V la matrice de variances et covariances :

V=

����

4� 8�,� … . 8�,� … 8�,�8�,� 4� … . 8�,� … 8�,�… . … … … … … … … … .8�,� 8�,� … . 4� … 8�,�… … … … … … … … … … .8�,� 8�,� … . 8�,� … 4� ����

Page 14: Cours scoring

Cours de méthodes de scoring- Hassen MATHLOUTHI Page 14

On peut remarquer qu’en présence d’un nuage centré et des poids

uniformes, on a :

4 � 1� 7′7

On sait que c’est une matrice symétrique définie positive, inversible sauf

s’il existe une relation linéaire entre les variables. De même on définit pour chaque groupe k une matrice de variances et covariance spécifique, soit

Vk=

����� 4�� 8�,�� … . 8�,�� … 8�,��

8�,�� 4�� … . 8�,�� … 8�,��… . … … … … … … … … .8�,�� 8�,�� … . 4�� … 8�,��… … … … … … … … … … .8�,�� 8�,�� … . 8�,�� … 4�� �����

4�� � ∑ �- .-,/<-01&2& + :�)��;�

(4�� � ∑ .-,/<-01&�& + :�)��;� si les poids sont uniformes)

et

8�,9� � ∑ � � ,�� ,9 0%& #� + �)���)9�

'8�,9� � ∑ .-,/.-,=-01&�& + �)���)9� si les poids sont uniformes)

Remarque: les moyennes ne sont pas nulles car les sous nuages ne sont pas centrés.

Soit W la matrice définie par la moyenne arithmétique des variances Vk . Cette matrice est appelée matrice des variances et covariances intra groupes:

> � " #�4��

���

A signaler que la matrice W est en général inversible.

On définit également une autre matrice B appelée matrice des variances et

covariances intergroupes. C’est la matrice des variances et covariances calculée

Page 15: Cours scoring

Cours de méthodes de scoring- Hassen MATHLOUTHI Page 15

au niveau des représentants des différents groupes. A rappeler que chaque représentant d’un groupe d’eux est caractérisé par les moyennes des variables considérées dans le groupe considéré, c'est-à-dire le centre de gravité de ce groupe. Les données concernant les représentants des groupes peuvent être consignées dans une matrice G prenant la forme suivante :

G =

�����

�)�� �)�� … . �)�� … �)���)�� �)�� … . �)�� … �)�� … … … … … … … … .�)�� �)�� … . �)�� … �)��… … … … … … … … .�)�� �)�� … . �)�� … �)�������

La matrice B est alors définie comme suit :

B =

�����

4�? 8�,�? … . 8�,�? … 8�,�?8�,�? 4�? … . 8�,�? … 8�,�?… . … … … … … … … … .8�,�? 8�,�? … . 4�? … 8�,�?… … … … … … … … … … .8�,�? 8�,�? … . 8�,�? … 4�? �

����

4�? � ∑ #����� '�)�� + �56 (² � ∑ #����� '�)��(²

et 8�,9? � ∑ #����� :�)�� + �56 ;' �)9� + �9,,,( � ∑ #����� �)���)9� car le nuage est centré.

On peut vérifier que : @ � ∑ #�3�3′����� .

C’est une matrice carrée de dimension p mais en en général de rang

inférieur à p. Cette matrice n’est donc pas en général inversible.

Page 16: Cours scoring

Cours de méthodes de scoring- Hassen MATHLOUTHI Page 16

On a le résultat important suivant connu sous le nom de formule de l’analyse de la variance :

V= W + B.

Cette propriété s’énonce ainsi : les variances (et covariances) totales (au

niveau de la population) telles que présentés par la matrice V coïncident avec la somme des variances (et covariances) intragroupes (au sein des groupes) données par la matrice W et des variances (et covariances) intergroupes (entre les groupes) fournies par la matrice B. 2.3 Métrique

Pour définir la distance, non nécessairement euclidienne, entre deux

individus e et f, on a besoin d’une métrique M. Il s’agit d’une matrice symétrique définie positive de dimension p:

d²(e,f) = (e-f)’M(e-f).

La norme associée à cette distance est alors donnée par :

|| e ||² = d²(o,e) = e’Me Remarque : Lorsque M =I, matrice identité, on a la distance euclidienne 3. PRINCIPE DE CLASSEMENT

Rappelons qu’on cherche à classer un nouvel individu dans l’un des m groupes sur la base des données relatives aux p variables considérées telles que observées chez cet individu.

L’approche géométrique, connue sous le nom de règle de Mahalanobis –

Fisher, consiste tout simplement à classer cet individu dans le groupe le plus proche. On sait qu’un individu et un représentant d’un groupe sont deux points de Rp. Le groupe recherché est donc celui pour le quel la distance entre son centre de gravité et le point individu concerné est la plus faible.

La métrique considérée pour calculer cette distance est celle de

Mahalanobis définie par l’inverse de la matrice intra groupes W. La règle d’affectation prend une formulation particulière lorsqu’on est en

présence de deux groupes seulement. Aussi, distingue t- on dans ce qui suit le cas général du cas de deux groupes.

Page 17: Cours scoring

Cours de méthodes de scoring- Hassen MATHLOUTHI Page 17

3.1 Cas général

Soit x = (x1, x2,.., xj,…, xp) les coordonnées du nouvel individu. Désignons par d²(x,gk) le carré de la distance entre x (le nouvel individu) et gk (le centre de gravité du groupe k). Par définition, l’on a :

d²(x,gk)= (x-gk)’W

-1(x-gk)

d’où en développant :

d²(x ,gk)= x’W -1x + g’kW-1gk-2x’W -1gk

On note que le premier terme du second membre de l’égalité précédente

(x’W -1x) ne dépend pas des groupes. On peut donc ne pas en tenir compte et se limiter à la quantité :

Sk(x) = x’W -1gk – ½ g’kW

-1gk

En calculant ces quantités pour k = 1 à m et les triant selon l’ordre

croissant, on identifie le groupe pour le quel cette quantité est la plus grande. C’est ce groupe qui définit le groupe d’affectation de l’individu considéré.

On peut noter que l’expression précédente est une fonction linéaire des

coordonnées du nouvel individu :

AB'C( � DB E " FGBCGHG�I

ce qui constitue un avantage pratique important du fait de la simplicité des calculs à effectuer. 3.2 Cas de deux groupes

Soit x = (x1, x2,.., xj,…, xp) les coordonnées du nouvel individu. Cet

individu est ainsi à affecter au groupe 1 lorsque

d²(x,g1) < d²(x,g2)

soit en remplaçant,

x’W -1x + g’1W-1g1-2x’W -1g1 < x’W -1x + g’2W

-1g2-2x’W -1g2

D’où en simplifiant et en factorisant on trouve,

Page 18: Cours scoring

Cours de méthodes de scoring- Hassen MATHLOUTHI Page 18

(g1-g2)’W-1(x- ½(g1+g2)) > 0

On remarque que le premier membre de cette inégalité est une fonction linéaire de x. En notant cette fonction S, l’individu dont les coordonnées sont données par x est ainsi à affecter dans le groupe 1 lorsque :

S(x) > 0 ( et donc à affecter au groupe 2 lorsque S(x) < 0). La fonction S est communément appelée fonction de score.

Page 19: Cours scoring

Cours de méthodes de scoring- Hassen MATHLOUTHI Page 19

Chapitre 3

CLASSIFIEUR BAYESIEN

Le problème de classement d’un individu sur la base de ses caractéristiques dans l’un de quelques groupes définis à priori peut être placé dans un cadre probabiliste. Il sera ainsi possible d’utiliser tous les outils de la théorie de probabilité dont en particulier les méthodes de choix dans l’incertain.

Un avantage important de l’approche probabiliste par rapport aux méthodes

géométriques présentées dans le chapitre précédent est alors de permettre d’apprécier quantitativement les risques de mauvais classement.

1. ELEMENTS DE LA THEORIE DE DECISION

On considère une population E de n individus répartis entre m groupes E1,

E2,…,Ek, …,Em définis à priori :� �� � ����� et Ek ∩ El = ∅ ∀ k≠ l. Si on note n1, n2,…,nk, …,nm les effectifs respectifs des m groupes considérés, on a ainsi : ∑ �� � �����

Soit un individu e de E, dont on ne connait pas le groupe d’appartenance et

qu’on cherche à classer dans l’un des m groupes. Cet individu peut être considéré comme le résultat d’une expérience aléatoire de tirage au hasard d’un élément de E.

Vu de cette manière, le problème de classement peut être placé dans le

cadre de la théorie probabiliste. L’ensemble E se présente ainsi comme un ensemble de résultats possibles d’une expérience aléatoire auquel on peut adjoindre une tribu ξ et une probabilité P pour former un espace probabilisé.

1.1 Etats de la nature :

Pour un individu e dont on ne connait pas le groupe d’appartenance, on

définit m états de la nature, c'est-à-dire des éventualités, concernant son groupe d’appartenance. Ces états de la nature sont notés : θk : « l’individu e ∈ Ek » et on désigne par Θ ={θ1,θ2,…θk,…,θm} l’ensemble des états de la nature. Soit T une application de E dans Θ associant à chaque individu son état de la nature. On peut considérer T comme une variable qualitative prenant les modalités θ1 ,θ2,…θk,…,θm et les probabilités à priori d’appartenance au groupe k : pk = P(T= θk) comme sa loi de probabilité. NB : T est non observable.

Page 20: Cours scoring

Cours de méthodes de scoring- Hassen MATHLOUTHI Page 20

1.2 Espace des observations :

Soit x = ( x1, x2,…, xj ,…,xp)’ un vecteur de p observations relevés

auprès de l’individu e. On peut considérer x comme une réalisation d’un vecteur aléatoire X= ( X1, X2,…, Xj ,…,Xp)’. On note χ ={ x ∈ Rp / x réalisation de X). C’est l’espace des observations. La variable X est alors une application de E dans χ (vérifiant les conditions de mesurabilité). 1.3 Espace des décisions :

On a à affecter un individu e dans l’un des m groupes. C’est une décision.

On note ak la décision d’affecter l’individu e dans le groupe k. On note A l’ensemble des décisions : A={a1,a2,…ak,…,am}

1.4 Règle de décision :

C’est une méthode de classement (on dit aussi classifieur). Formellement,

c’est une application de χ dans A. On note δ cette application. Techniquement, c’est un procédé permettant de prendre une décision « a » au vu de la réalisation x de X : a=δ(x). Nb : Comme x résulte du hasard a=δ(x) résulte aussi du hasard. Aussi, définit on la variable aléatoire Y =δ(X) qui prend les valeurs a1,a2,…ak,…,am avec des probabilités définies par :

P( Y=a) = P(x ∈ χ/ a=δ(x)}=P(δ-1(a)).

1.5 Fonction de perte :

A chaque règle de décision on associe une fonction de perte définie par une application L de (A, Θ) dans R+ : L(ak, θl) ≥ 0. On l’interprète comme la perte (ou le coût) supportée en affectant e au groupe k alors qu’en réalité il appartient au groupe l. On note que L(ak, θk) = 0 pour tout k = 1 à m. D’autre part, comme ak et θl résulte du hasard, la perte encourue z = L(ak, θl) résulte aussi du hasard. C’est une réalisation d’une variable aléatoire Z = L(Y,T). Dans la suite, on est amené à calculer la perte moyenne d’une règle de décision :

E(Z) = ∑ ∑ J'K � L, M � N(O'L, N(PQ

� " " J'7 � �, M � N(O'R'�(, N(PS

Page 21: Cours scoring

Cours de méthodes de scoring- Hassen MATHLOUTHI Page 21

1.6 Illustration :

E est l’ensemble des champignons pouvant être récoltés dans un foret. On suppose que ces champignons appartiennent à deux groupes. E1 : les champignons combustibles et E2 : les champignons vénéneux. On observe sur les champignons une seule variable aléatoire X, prenant les valeurs 3, 5 et 8 (par exemple leur diamètre exprimé en cm). On suppose disposer des lois conditionnelles de X sachant T=θ et de la loi marginale de X :

X / T= θ1 X / T=θ2 X 3 9/10 0 3/4 5 1/10 1/4 1/8 8 0 3/4 1/8

ainsi que la loi de T : / P(T=θ1) = 5/6 et P(T=θ2) = 1/6.

On cueille un champignon e. Soit deux décisions a1 : « Manger ce champignon » a2 : « Ne le pas manger ». On suppose que les coûts sont comme suit :

a1 a2

θ1 0 1 θ2 200 0

Considérons enfin la règle de décision suivante :

δ(x) = a1 si x =3 et δ(x) = a2 si x > 3.

Trouvons la loi de Y = δ(X), la loi du couple (T,Y) et E(Z). Loi de Y

Y a1 a2 P(Y=ai) 3/4 1/4

Loi de (T,Y)

a1 a2 T θ1 3/4 1/12 5/6 θ2 0 1/6 1/6 Y 3/4 1/4 1

On calcule E(Z) =1/12

Page 22: Cours scoring

Cours de méthodes de scoring- Hassen MATHLOUTHI Page 22

2 CLASSIFIEUR DE BAYES 2.1 Définition :

Etant donné un espace d’états de la nature Θ, un espace d’observations χ, un espace de décision A et une fonction de perte L, le classifieur de Bayes est la règle de décision minimisant la perte moyenne parmi toutes les règles de décision possibles.

Soit ∆ l’ensemble de toutes les règles de décisions possibles de χ dans A.

Le classifieur de Bayes δ* est donc tel que : E(L(δ*(X),T)) ≤ E(L(δ (X),T)) ∀ δ ∈ ∆

2.2 Caractérisation : Proposition Soit δ0 ∈ ∆ minimisant E(L(δ (X),T)/X=x) ∀ x ∈ χ alors δ0 minimise E(L(δ (X),T)). Preuve :

E(L(δ0 (X),T)/X=x) ≤ E(L(δ(X),T)/X=x) ∀ x ∈ χ et ∀ δ ∈ ∆ Ex(E(L(δ0 (X),T)/X=x)) ≤ Ex(L(δ(X),T)/X=x) ∀ δ ∈ ∆

E(L(δ0 (X),T)) ≤ E(L(δ (X),T)) ∀ δ ∈ ∆ La règle de Bayes est donc telle que : E(L(δ*(X),T)/X=x) ≤ E(L(δ(X),T)/X=x) ∀ x ∈ χ et ∀ δ ∈ ∆ Soit donc, ∑ O'R?'�(���� , N�(P'T � θV /X � x( Z ∑ O'R'�(���� , N�(P'T � θV /X � x( ∀ x ∈ χ et ∀ δ ∈ ∆ Or d’après la formule de Bayes,

P(T=θk /X=x) = �&[&'.(∑ �&[&'.(\&]^

D’où en remplaçant,

Page 23: Cours scoring

Cours de méthodes de scoring- Hassen MATHLOUTHI Page 23

∑ O'R?'�(���� , N�(��_�'�( Z ∑ O'R'�(���� , N�(��_�'�( ∀ x ∈ χ et ∀ δ ∈ ∆

Ainsi, étant donné un individu e et xe la réalisation de X chez cet individu.

Notons al* la décision prise au vue de xe si on applique la règle de Bayes (al* =δ*(x e)) et al la décision prise au vue de xe si on applique une autre règle (al=δ (xe)). Comme L(ak, θk) = 0 ∀ k = 1 à m, on a ainsi :

" O'*`?���� �a`?

, N�(��_�'�( Z " O'*`���� �a`

, N�(��_�'�( � b c b? D’où la règle pratique suivante, étant donné un individu e de caractéristiques x : • On commence par calculer la quantité : ∑ O'*`���� �a` , N�(��_�'�( pour chaque groupe l = 1 à m.

• Le groupe à retenir pour l’affectation de l’individu e est celui pour le quel cette quantité est la plus faible.

2.3 Cas particulier important

Les coûts varient d’une application à une autre. Si l’on suppose que les coûts sont égaux, la règle de Bayes prend une formulation assez simple. En effet, en développant la formule précédente on trouve:

O'*`?, N`(�`_̀ '�( E " O'*`?���� �a`?�a`

, N�(��_�'�(Z O'*`?, N`?(�`?_̀ ?'�( E " O'*`

���� �a`�a`?, N�(��_�'�(� b c b ?

Après simplification, on obtient: �`_̀ '�( Z �`?_̀ ?'�(

Soit après division des deux membres par ∑ ��_�'�(���� ,

P'T � θd /X � x( ≤ P'T � θd ? /X � x(

Ce qui signifie que le classifieur de Bayes affecte l’individu e au groupe pour le quel la probabilité d’appartenance à posteriori est la plus élevée.

Page 24: Cours scoring

Cours de méthodes de scoring- Hassen MATHLOUTHI Page 24

Bien que l’hypothèse d’égalité des coûts ne soit pas plausible, c’est cette règle qui est la plus retenue en pratique. Ainsi, étant donné un individu e et x ses caractéristiques,

• On commence par calculer la quantité Ck(x) = pkfk(x) pour k =1 à l.

• Le groupe d’affectation de e est celui pour le quel la quantité Ck(x) est la plus élevée.

Remarques : • Toute transformation monotone de Ck(x) peut être considérée comme une fonction donnant le score de e dans Ek. En particulier, la transformation « Logarithme » est souvent utilisée pour les facilités de calcul qu’elle permet. • Dans le cas de deux groupes (k=1,2), la règle d’affectation précédente est équivalente à la suivante : On affecte l’individu e au groupe 1 si :

R(x)= [p1.f1(x)/ p2.f2(x)] > 1

Ou ce qui est équivalent en passant aux logarithmes, si

r(x)=Ln(p 1/p2) +L n(f1(x)/f2(x)) > 0

3. MISE EN APPLICATION Pour la mise en application du classifieur de Bayes, il faut disposer des

probabilités à priori pk et des probabilités conditionnelles fk. En pratique, ces grandeurs sont en général inconnues. Il convient en conséquence de les estimer à partir de données issues d’un échantillon.

On peut procéder à une estimation directe de ces probabilités dans le cas où X= ( X1, X2,…, Xj ,…,Xp)’ est discret et p petit (estimation non paramétrique)

Rappelons que l’on a à estimer :

• pk = P(e ∈ Ek) ∀ k = 1 à m • fk(x) = P( X=x/ Ek) ∀ k = 1 à m et ∀ x ∈ χ

NB : l’ensemble χ est fini .Il est défini par le produit cartésien χ = χ 1⊗ χ 2 ⊗…⊗ χ j ⊗…⊗ χ p

ou χ j est l’espace des observations relatives à la variable Xj. C’est un ensemble fini contenant les modalités de cette variable puisque celle-ci est discrète.

Page 25: Cours scoring

Cours de méthodes de scoring- Hassen MATHLOUTHI Page 25

On peut utiliser comme méthode d’estimation la méthode du maximum de vraisemblance qui conduit à estimer ces probabilités par leur équivalent empirique, soit :

• ��e � �&� où nk est l’effectif du groupe Ek et n est l’effectif total dans

l’échantillon

• _�f '�( � �&'.(�& ou nk(x) est l’effectif dans Ek présentant la modalité x.

Remarques importantes : • En pratique, cette méthode n’est possible qu’avec un nombre très limité de groupes et de variables. En outre, ces variables doivent présenter également un petit nombre de modalités. Pour fixer les idées, supposons qu’on est en présence de 5 variables présentant chacune 8 modalités et que le nombre de groupes est 3. Le cardinal de χ est alors de 85. Le nombre de quantités _�f '�( à calculer s’élève alors à 3.85 ce qui est impossible à réaliser même avec un ordinateur. • On peut considérer des variables continues à condition de les discrétiser en définissant des classes de variation. Mais, se pose alors le problème de définition de ces classes. • Une hypothèse a été proposée pour réduire le nombre de paramètres à estimer. Elle consiste à supposer l’indépendance des variables prises en considération. Sous cette hypothèse, on a en effet seulement les probabilités marginales à estimer. La méthode d’affectation qui en résulte porte le nom de classifieur Bayesien naïf.

Annexe : Formule de Bayes Désignons par :

• pk : Probabilité d’appartenance au groupe k . pk = P( e ∈ Ek) Cette probabilité est appelée probabilité à priori .

• fk(x): la densité de probabilité du vecteur X dans le groupe k (Il s’agit d’une densité conditionnelle) lorsque X est absolument continue ou la probabilité de l’événement « X=x » dans le groupe k lorsque X est discret (fk(x) = P(X=x/ e ∈ Ek).

La formule de Bayes permet d’exprimer la probabilité à posteriori d’appartenir au groupe k sachant que la variable prend la valeur x :

P(e ∈ Ek / X(e) = x) = �&[&'.(∑ �&[&'.(\&]^

Page 26: Cours scoring

Cours de méthodes de scoring- Hassen MATHLOUTHI Page 26

Chapitre 4

ANALYSE DISCRIMINANTE DE FISHER

Cette méthode est la plus ancienne des méthodes statistiques de classement.

Remontant aux travaux de Fisher en 1936, elle permet de classer les individus d’une population entre différents groupes définis à priori au vu de données relatives à des variables quantitatives.

1. PRESENTATION

Cette méthode se présente comme une application du classifieur de Bayes dans le cas où les descripteurs X sont des variables aléatoires continues et sont supposées suivre, conditionnellement à chaque groupe Ek , une loi normale de moyenne µk et une matrice de variances et covariances Σk.

C’est donc une méthode où les probabilités conditionnelles à estimer sont

supposées relever de lois de probabilités données mais dépendant néanmoins de paramètres inconnus à estimer à partir des données mises à disposition (estimation paramétrique).

2. MODELISATION

Dans les applications, on distingue en fait entre deux modèles d’analyse discriminante selon que l’on suppose que les Σk sont différentes d’un groupe à un autre (modèle hétéroscédastique) ou que ces matrices sont identiques (modèle homoscédastique). 2.1 Modèle hétéroscédastique

Avec un modèle hétéroscédastique, les densités conditionnelles s’écrivent, étant donné x ∈ Rp :

fk(x) =(2ππππ)(-p/2) (detΣΣΣΣk)

(-1/2) exp(-1/2)(x-µµµµk)’ ΣΣΣΣk-1(x-µµµµk)

On en déduit directement les fonctions Ck(x) :

Ck(x) =pk(2ππππ)(-p/2) (detΣΣΣΣk)(-1/2) exp(-1/2)(x-µµµµk)’ ΣΣΣΣk

-1(x-µµµµk) .

Page 27: Cours scoring

Cours de méthodes de scoring- Hassen MATHLOUTHI Page 27

Soit, après passage aux logarithmes (ce qui ne change pas la règle d’affectation) :

Sk(x)= Ln(pk )– (1/2)Ln(detΣΣΣΣk)-(1/2)(x-µµµµk)’ ΣΣΣΣk

-1(x-µµµµk) Cette quantité est à calculer pour chaque groupe k =1 à m. Le groupe

d’affectation est alors celui pour le quel cette quantité est la plus élevée.

Remarques : La fonction Sk(x) est bien une fonction de x. On l’appelle la fonction de classement ou la fonction discriminante ou encore la fonction de score. On note qu’elle est de type quadratique. 2.2 Modèle Homoscédastique

L’homoscédasticité du modèle signifie que les Σk sont supposées identiques (Σk = Σ , ∀ k = 1 à m). En pratique, il convient au préalable de tester cette hypothèse.

La fonction de score se simplifie. En effet, l’on a :

Sk(x)= Ln(pk )– (1/2)Ln(detΣΣΣΣ)-(1/2)(x-µµµµk)’ ΣΣΣΣ -1(x-µµµµk)

soit en développant,

Sk(x)= Ln(pk )– (1/2)Ln(detΣΣΣΣ)-(1/2)[ x’ΣΣΣΣ -x1-x’ΣΣΣΣ -1µµµµk -µµµµk’ΣΣΣΣ -1x+µµµµk’ΣΣΣΣ -1µµµµk]

Les termes ne dépendant pas de k peuvent être omis car ils ne changent pas le classement. On peut alors définir la fonction de score ainsi :

Sk(x)= Ln pk +µµµµk’ ΣΣΣΣ-1x– (1/2)(µµµµk’ ΣΣΣΣ -1µµµµk).

On note que dans ce cas, la fonction de score est linéaire ce qui constitue

un avantage pratique important.

Remarques importantes : • Lorsqu’on suppose en plus que les probabilités à priori sont égales, on peut éliminer les termes correspondants dans la fonction de score. On retrouve alors la règle géométrique de Fisher Mahalanobis. • Dans le cas de deux groupes, la règle précédente est équivalente à la suivante : On affecte l’individu e au groupe 1 si

r(x)=Ln(p 1/p2) +Ln(f 1(x)/f2(x)) > 0

Page 28: Cours scoring

Cours de méthodes de scoring- Hassen MATHLOUTHI Page 28

soit après remplacement et simplification :

r(x)=Ln (p 1/p2) +(µµµµ1- µµµµ2)ΣΣΣΣ-1x - ½ (µµµµ1- µµµµ2)’ΣΣΣΣ-1 (µµµµ1+ µµµµ2) > 0

On note qu’il s’agit d’une fonction linéaire 3. ESTIMATION

En pratique, on ne connait pas les pk, ni les µk, ni les Σk. On cherche à les estimer.

Leur estimation par leur équivalent empirique (méthode du maximum de

vraisemblance) donne : ghB � iB, HhB� jBj , kfB � jBjB + I lB , kf � jj + B m

où les gk et les Vk sont définies comme dans le chapitre précédent à partir d’observations sur les p variables dans un échantillon de n individus répartis en m groupes définis à priori. NB : lorsque les effectifs nk sont élevés, on peut ne pas tenir compte des facteurs correctifs dans l’estimateur de la variance en posant : Σo� � 4� , Σo � > Annexes : Loi normale multidimensionnelle. Soit X= ( X1, X2,…, Xj ,…,Xp)’ un vecteur aléatoire à p dimensions. On note µ = (µ1, µ2,…, µj ,…, µp)’ le vecteur des espérances et

Σ =

����

4� 8�,� … . 8�,� … 8�,�8�,� 4� … . 8�,� … 8�,�… . … … … … … … … … .8�,� 8�,� … . 4� … 8�,�… … … … … … … … … … .8�,� 8�,� … . 8�,� … 4� ����

la matrice de variances et covariances.

On dit que X est un vecteur normal ( X → N(µ,Σ) si :

∀ U ∈ Rp, U’X est une variable aléatoire réelle suivant une loi normale (unidimensionnelle). Lorsque Σ est inversible, X admet une densité de probabilité ayant la forme suivante :

f(x) =(2ππππ)(-p/2) (detΣΣΣΣ)(-1/2) exp(-1/2)(x-µµµµ)’ ΣΣΣΣ-1(x-µµµµ) ∀∀∀∀x ∈∈∈∈ Rp.

Page 29: Cours scoring

Cours de méthodes de scoring- Hassen MATHLOUTHI Page 29

Chapitre 5.

ANALYSE DISCRIMINANTE LOGISTIQUE

L’analyse discriminante logistique est une autre méthode de

classement aussi connue que la méthode d’analyse discriminante de Fisher. Tout en reposant sur le principe bayesien de classement, elle se distingue toutefois de cette dernière en procédant plutôt à modéliser les probabilités à posteriori et non les probabilités conditionnelles.

1. PRESENTATION 1.1 Hypothèse de base

Il a été démontré que dans le cas de deux groupes, la règle de décision de

Bayes est telle qu’on affecte un individu x au groupe 1 si :

O� _�'�(_�'�( p q 'rs�t!*�! (

où f1 et f2 sont les densités du vecteur X respectivement dans les groupes E1 et E2.

En supposant la normalité et l’homoscédasticité de X, on peut montrer que

cette règle prend une forme linéaire : �uv p r

(c étant une constante)

La linéarité d’un score constitue un avantage important en pratique du fait notamment de la facilité de mise en œuvre informatique. Néanmoins les hypothèses de normalité et d’homoscédasticité peuvent s’avérer dans certains cas peu réalistes et inadaptées.

Cependant, tout en restant dans le cadre Bayèsien, il peut être noté que la

linéarité du score peut être obtenue sous d’autres hypothèses concernant les lois conditionnelles. Ainsi par exemple si on a une seule variable X de type discret suivant une loi de Bernoulli de paramètres π1 dans le groupe E1 et π2 dans le groupe E2, la règle de Bayes s’écrit :

Page 30: Cours scoring

Cours de méthodes de scoring- Hassen MATHLOUTHI Page 30

O� #�.'1 + #�(.#�.'1 + #�(. p r 'rs�t!*�! (

ce qui donne :

� wO� #�#� + O� 1 + #�1 + #�x E O� 1 + #�1 + #� p r

qui est bien une fonction linéaire des observations.

L’analyse discriminante logistique, n’impose aucune loi particulière à suivre par les descripteurs. Elle se donne comme hypothèse de base la linéarité du logarithme du rapport de vraisemblance :

O� _�'�(_�'�( � �yv

Elle est ainsi plus générale que l’analyse discriminante bayésienne avec

normalité et homoscédasticité des descripteurs. 1.2 Expression de la probabilité à postériori

Lorsque le score est linéaire, les probabilités à postériori prennent une forme particulière qui est celle de la loi logistique. En effet, notons p(x) (respectivement q(x)) la probabilité à postériori d’appartenance au groupe E1 (respectivement E2) :

�'�( � J' 0 �� \7 � �( � _�'�(��_�'�(�� E _�'�(��

Soit, en divisant numérateur et dénominateur par f2(x)p2 et compte tenu de l’hypothèse de linéarité de logarithme du rapport de vraisemblance :

�'�( � .{|}|~1 E .{|}|~

avec β0 = ln (p1/p2)

Un développement similaire conduit à :

�'�( � 11 E .{|}|~

Page 31: Cours scoring

Cours de méthodes de scoring- Hassen MATHLOUTHI Page 31

Ce qui montre que les probabilités à postériori prennent la forme de la fonction de répartition d’une loi logistique (d’où d’ailleurs l’appellation logistique) . Remarques

• Poser que la score est linéaire équivaut donc à supposer que les probabilités à postériori sont logistiques

• L’analyse discriminante logistique consiste à estimer ces probabilités à partir des données. Elle se distingue ainsi de l’analyse précédente dont l’objet est l’estimation des lois conditionnelles

• On se base toujours sur le principe bayesien : l’individu est à affecter au groupe pour le quel la probabilité à postériori d’y appartenir est la plus élevée. Cela suppose au préalable que l’on dispose d’une estimation des βj j=0 à p

2. MODELISATION

L’estimation du score passe par l’estimation d’un modèle économétrique connu sous l’appellation de modèle Logit.

Pour simplifier la présentation, nous considérons dans ce qui suit le cas de deux groupes (la généralisation à plusieurs groupes peut être opérée assez directement). Considérons la nouvelle variable aléatoire réelle Y défini par :

{Y=1 si l’individu ∈ au groupe 1 ; Y= 0, sinon} On note que la variable Y suit, conditionnellement à X =x, suit une loi de

Bernoulli de paramètre p(x) = P(Y= 1/X =x), d’où : P(Y=y/X=x) = p(x)y(1-p(x))1-y ∀ y ∈ {0,1} Le modèle postule que :

O� � �'�(1 + �'�(� � �uv E v�

Remarque : On note que cette dernière écriture équivaut à l’hypothèse selon laquelle les probabilités à posteriori sont logistiques. 3. ESTIMATION

On utilise la méthode du maximum de vraisemblance pour ses bonnes propriétés asymptotiques.

Soit un échantillon indépendant de n observations :

Page 32: Cours scoring

Cours de méthodes de scoring- Hassen MATHLOUTHI Page 32

(y1,x1,1,x1,2,…,x1,j,…,x1,p), (y2,x2,1,x2,2,..,x2,j,..,x2,p), ...,(yi,xi,1,xi,2,…,xi,j,…,xi,p),..., (yn,xn,1,xn,2,…,xn,j,…,xn,p).

La vraisemblance de cet échantillon est par définition sa probabilité de réalisation :

4'L, �, v( � J�'K� � L�, 7� � ��(, … , 'K � L , 7 � � (, … , 'K� � L�, 7� � ��(]

Soit compte tenu de l’indépendance de l’échantillon,

4'L, �, v( � � J'K � L , 7 � � (� ��

Ou encore,

4'L, �, v( � � J'K � L /7 � � (J'� ��

7 � � (

Soit, en passant aux logarithmes :

O��4'L, �, v(� � " O��J'K � L /7 � � (� E " O�� ��

�J'� ��

7 � � (�

D’où en remplaçant,

O��4'L, �, v(� � " O���'� (�-'1 + �'� ((���-� E " O�� ��

�J'� ��

7 � � (�

Soit après développement et compte tenu du modèle (expression de p(xi)) :

O��4'L, �, v(� � "'L �� uv E v�� + O��1 E .-{|}|~�( E " O�� ��

�J'� ��

7 � � (� La maximisation de L passe par l’annulation de ses dérivées premières :

���'�'�,�,�((��� � ∑ y����� x�,� + ∑ x�,����� . ���{���~

�}��-{���~ =0

La solution de cette équation ne peut pas être déterminée explicitement. On

utilise à cet effet un algorithme de résolution numérique, le plus connu étant l’algorithme de Newton – Raphson.

Page 33: Cours scoring

Cours de méthodes de scoring- Hassen MATHLOUTHI Page 33

Chapitre 6

VALIDATION D’UNE METHODE DE SCORING

Une fois un modèle ou plusieurs modèles de scoring sont estimés, il convient d’analyser leurs performances avant de les valider pour être utilisés comme outil d’aide à la décision.

L’analyse de performances, à l’issue de la quelle une méthode de scoring

est validée, permet notamment • D’améliorer un modèle en comparant plusieurs de ses variantes (ajout ou

retrait de variables explicatives, etc.) • De choisir entre plusieurs types de modèles candidats

L’analyse des performances d’un modèle gagnerait à être conduite sur un jeu de données différent de celui qui a été utilisé pour l’estimation. On doit en effet, lorsque cela est possible, distinguer entre l’échantillon d’apprentissage et l’échantillon de test ou de validation. Ce dernier doit nécessairement contenir les valeurs réelles de la variable cible (appartenance aux groupes). D’une manière générale, il s’agit de comparer entre les valeurs réelles de la variable cible avec celles prédites par le modèle. 1. CONCEPTS DE BASE 1.1 Positifs et négatifs

Soit une population partitionnée en deux sous groupes G1 et G2. On appelle

(par convention) les positifs les individus de G1 et les négatifs les individus de G2.

On dispose par ailleurs d’une fonction de score (issue d’un modèle) notée S et d’un seuil s définies tels que :

• On affecte l’individu présentant l’observation x au groupe G1 si S(x) > s . Autrement dit, on considère cet individu comme positif.

• Sinon, on l’affecte au groupe G2 , on le considère donc comme négatif On appelle :

• Faux positif, un individu négatif considéré par la méthode de score comme positif

• Faux négatif, un individu positif considéré par la méthode de score comme négatif

Page 34: Cours scoring

Cours de méthodes de scoring- Hassen MATHLOUTHI Page 34

1.2 Spécificité

On appelle coefficient de spécificité et on note 1-α la probabilité suivante :

1-α = Pr (S(x) < s / x ∈ G2)

C’est donc la probabilité de bien détecter un négatif ou encore c’est la proportion des négatifs dans la population pouvant être détecté par la méthode.

La quantité α = Pr (S(x) ≥ s / x ∈ G2) désigne donc la probabilité de

considérer un individu comme positif alors qu’il est négatif (faux positif). Pour une méthode de score, c’est un premier type de risque d’erreur d’affectation. 1.3 Sensibilité

On appelle coefficient de sensibilité et on note 1-β la probabilité suivante :

1-β = Pr (S(x) > s / x ∈ G1)

C’est donc la probabilité de bien détecter un positif ou encore c’est la proportion des positifs dans la population pouvant être détecté par la méthode.

La quantité β = Pr (S(x) ≤ s / x ∈ G1) désigne par conséquent la

probabilité de considérer un individu comme négatif alors qu’il est positif (faux négatif). Il s’agit pour une méthode de score d’un deuxième type de risque d’erreur d’affectation

Remarques • On peut aussi considérer la quantité γ = Pr (S(x) > s ) qui est la probabilité de considérer un individu comme positif. C’est la proportion d’individus supposés être intéressés par un nouveau produit dans une compagne marketing par exemple. • Le meilleur modèle (et donc la meilleure fonction de score) est celui qui minimise les deux types de risque d’affectation (les quantités β et α) . • Les coefficients α et β changent lorsque le seuil s change. On les exprime comme des fonctions de s : α(s) et β(s). Le seuil s est déterminé à l’extérieur du modèle notamment par des considérations d’ordre économique.

Page 35: Cours scoring

Cours de méthodes de scoring- Hassen MATHLOUTHI Page 35

NB : En augmentant s, on réduit la probabilité de tomber sur des faux positifs (α) mais on augmente la probabilité d’avoir des faux négatifs (β). A noter aussi que le modèle le plus performant est celui pour le quel les deux distributions sont séparées. En revanche, lorsque les deux distributions sont confondues, le modèle correspondant est le moins performant. 2. PRINCIPAUX OUTILS DE MESURE DE PERFORMANCE

Plusieurs outils de mesure de performance sont proposés par la littérature

statistique. On présente dans ce qui suit trois de ces outils qui sont les plus connus : la matrice de confusion, la courbe ROC et la courbe LIFT.

2.1 Matrice de confusion

On l’appelle aussi tableau de classement. Elle prend la forme suivante : Positifs Négatifs Total Considérés positifs n11 n12 n1.

Considérés négatifs n21 n22 n2.. Total n.1 n.2 n

Ces résultats sont issus d’un traitement de l’échantillon de validation. A

partir de ce tableau, on calcule : • Le taux d’erreur de classement donné par : MC= (n12+n21) /n • Le taux de biens classés donné par : BC= (n11 + n22)/n Remarques : • Ces taux doivent être interprétés en tenant compte des fluctuations

d’échantillonnage • Il n’ya pas de référence servant de base pour la comparaison.

G1 G2

S(x) s

1-β 1-α

Page 36: Cours scoring

Cours de méthodes de scoring- Hassen MATHLOUTHI Page 36

2.2. La courbe ROC

L’appellation ROC vient des abréviations du nom anglais donné à cette courbe : ( Receiver operating caracteristics).

2.2.1 Définition

La courbe ROC est défini par la représentation graphique de la proportion (1-β(s)) des positifs détectés par la méthode en fonction de la proportion des faux positifs α(s) lorsque s varie.

On peut noter d’après le graphique ci-dessus, que : • Lorsque α(s) = 0, 1-β(s) = 0 • Lorsque α(s) = 1 , 1-β(s) = 1. • 1-β(s) et α(s) évoluent dans le même sens.

D’une manière générale, la courbe ROC a cette allure

En pratique , la courbe ROC étant construite à partir des données de

l’échantillon de validation, les quantités 1-β(s) et α(s) sont remplacées par leur estimations issues de ces données, soit respectivement la proportion des faux positifs dans l’ensemble des négatifs et la proportion des individus considérés positifs dans l’ensemble des positifs.: 2.2.2 Utilisation

On peut noter que :

• Lorsque les deux distributions de S(X) (dans les deux groupes) sont bien distinctes, la courbe ROC est horizontale. En effet, lorsque α(s) passe de 0 à 1 1-β(s) prend toujours la valeur 1. (Modèle le plus performant) • Lorsque les deux distributions de S(x) sont confondues, la courbe ROC coïncide avec la première bissectrice. (Modèle le moins performant) . Ces

1

1

α(s)

1-β(s)

Page 37: Cours scoring

Cours de méthodes de scoring- Hassen MATHLOUTHI Page 37

remarques conduisent à considérer la surface sous la courbe ROC (AUC) comme indicateur synthétique de la performance d’un modèle :

• AUC ≈ 1 modèle très performant • AUC ≈ 1/2 modèle non performant

Cet indicateur permet ainsi de choisir entre modèles: On retient le modèle

ayant le AUC le plus élevé. La surface AUC peut être calculée en utilisant la méthode de trapèzes une

fois que la courbe ROC est tracée .Mais on pratique, on utilise la méthode des paires concordantes. On démontre en effet que : AUC= P(S1>S2) où S1 et S2 sont respectivement les scores de deux individus tirés d’une manière indépendante dans le groupe des positifs puis dans le groupe des négatifs.

Dans les applications, cette probabilité est estimée par la proportion des

paires concordantes. Si on note n1 et n2 le nombre d’individus dans le groupe des positifs et dans le groupe des négatifs. Le nombre de paires s’élève à n1n2. Parmi ces paires, celles où le score du positif dépasse celle du négatif sont appelées paires concordantes. 2.3. La courbe LIFT

Cette courbe est très utilisée en marketing. Elle peut servir aussi à mesurer la performance d’une compagne de promotion d’un nouveau produit. Elle est alors déterminée à partir des données de la population. 2.3.1 Définition

La courbe LIFT est défini par la représentation graphique de la proportion (1-β(s)) des positifs détectés par la méthode en fonction de la proportion des individus considérés positifs par la méthode γ (s) lorsque s varie.

On peut noter que :

• Suite à une réduction de s, γ (s) augmente. Cette augmentation se décompose en une augmentation de vrais positifs et en une augmentation des faux positifs • L’idéal est lorsque l’on enregistre que des augmentations des vrais positifs suite à une augmentation de γ (s) ( les distributions sont alors bien séparées). Cette situation est représentée par un LIFT idéal. • Lorsqu’on enregistre autant de vrais positifs que de faux positifs suite à une augmentation de γ (s), la méthode est non performante et est équivalente à un

Page 38: Cours scoring

Cours de méthodes de scoring- Hassen MATHLOUTHI Page 38

choix aléatoire. Cette situation est représentée par un LIFT coïncidant avec la première bissectrice (LIFT aléatoire)

D’une manière générale, la courbe LIFT a l’allure suivante :

2.3.2 Utilisation

Notons p1 la proportion des positifs et donc (1-p1) la proportion des négatifs. La probabilité γ s’écrit alors :

γ(s) = (1-β) p1+ α(1-p1)

On peut démontrer que la surface sous la courbe LIFT notée AUL est

donnée par :

AUL = p1/2 + (1-p1) AUC

Cette surface peut être utilisée comme une mesure de la performance d’un modèle. On lui préfère la quantité Ki donnée par :

aléatoire)lift et idéallift entre (Surface

aléatoire)lift et estimélift entre (surface Ki =

En remplaçant on trouve :

Ki = 2 AUC -1

1

1

γ(s)

LIFT aléatoire

LIFT estimé

Lift idéal

1-β(s)

Page 39: Cours scoring

Cours de méthodes de scoring- Hassen MATHLOUTHI Page 39

3. ILLUSTRATION

Les données de l’échantillon de validation, une fois qu’on a calculé le score pour chaque individu, se présentent ainsi par ordre décroissant du score :

identifiant Groupe Score γγγγ(s)

αααα(s) 1-ββββ(s) 1 positif 1 0.1 0 0.2 2 positif 0.9 0.2 0 0.4 3 positif 0.85 0.3 0 0.6 4 négatif 0.7 0.4 0.2 0.6 5 positif 0.6 0.5 0.2 0.8 6 négatif 0.55 0.6 0.4 0.8 7 positif 0.45 0.7 0.4 1 8 négatif 0.3 0.8 0.6 1 9 négatif 0.2 0.9 0.8 1 10 négatif 0.1 1 1 1 3.1 Matrice de confusion

Pour un seuil s fixé à 0.4, la matrice de confusion se présente ainsi :

prévu Réel

Positifs Négatifs Total

Positif 5 0 5 Négatif 2 3 5 Total 7 3 10

On en déduit :

BC= 8/10 et MC= 2/10 ,

Page 40: Cours scoring

Cours de méthodes de scoring- Hassen MATHLOUTHI Page 40

3.2 La courbe ROC La courbe ROC prend la forme suivante pour les données considérées :

On en déduit directement,

AUC = 0.88

3.3 La courbe LIFT En portant les points, on obtient :

On en déduit :

Ki = 0.76

0

0,2

0,4

0,6

0,8

1

1,2

0 0,5 1 1,5

0

0,2

0,4

0,6

0,8

1

1,2

0 0,2 0,4 0,6 0,8 1 1,2

Page 41: Cours scoring

Cours de méthodes de scoring- Hassen MATHLOUTHI Page 41

Bibliographie

• Analyse discriminante : application au risque et scoring financier. Mireille Bardos • Probabilités, analyse de données et Statistiques. Gilbert Saporta

• Data mining et Scorig. Stéphane Tuffery