Upload
galeno
View
46
Download
0
Embed Size (px)
DESCRIPTION
Classification thématique de courriels. 5 juin 2004. Méthode hybride combinant apprentissage supervisé, semi-supervisé et non supervisé. Kessler Rémy, Juan Manuel Torres-Moreno et Marc El-Bèze. Plan. Problématique Méthode Pré-traitement Apprentissage non supervisé: k-means/k-means flou - PowerPoint PPT Presentation
Citation preview
Kessler Rémy 105/06/2004
Classification thématique de courriels
Méthode hybride combinant apprentissage supervisé, semi-supervisé et non supervisé
Kessler Rémy, Juan Manuel Torres-Moreno et Marc El-Bèze
5 juin 2004
Kessler Rémy 205/06/2004
Problématique
Méthode Pré-traitement Apprentissage
non supervisé: k-means/k-means flousupervisé: Machine à support vectoriel
Méthode Hybride
Résultats
Conclusion et perspectives
Plan
Kessler Rémy 305/06/2004
Problématique Les nouvelles formes de communication sont un défi
considérable pour leur traitement..
Gérer ces flux d’information devient un enjeu majeur pour les entreprises.
Cela implique de : Classer les courriels en
fonction de leur thématique
Automatiser les réponses
Corpus construit à partir de Newsletter et de listes de diffusion
05/06/2004 Kessler Rémy 4
Pré-traitement
Kessler Rémy 505/06/2004
Schéma du pré-traitement
Kessler Rémy 605/06/2004
Nettoyage du corpus
Séparation de l’en-tête, du corps et des pièces jointes
Génération d’un fichier XML
Statistique du Corpus
Kessler Rémy 705/06/2004
Suppression des micro-publicités
Ajoutés au bas des courriels par les fournisseurs en service de messagerie éléctronique
La micro-publicité aucune informations ajoute du bruit
_____________________________________________________________________
Envie de discuter en "live" avec vos amis ? Télécharger MSN Messenger
http://www.ifrance.com/_reloc/m la 1ère messagerie instantanée de France
_____________________________________________________________________
Envie de discuter en "live" avec vos amis ? Télécharger MSN Messenger
http://www.ifrance.com/_reloc/m la 1ère messagerie instantanée de France
Kessler Rémy 805/06/2004
Traduction du phonécrit Phonécrit: Toute forme d’écriture basée sur une écriture
phonétique sans contrainte ou avec des règles établies par l’usage
« Traduction » en langue française :-) → sourire A+, a+ → à plus tard @2m1 → à demain Etc. → Et cetera
Premier traitement
Ambiguïté dans certain cas: 7 → Cet(te) ou Sète, L → Elle
Kessler Rémy 905/06/2004
Filtrage & Lemmatisation Mots composés deviennent des termes uniques
pomme de terre → pomme_de_terre pique nique, pique niquons, pique niques → pique_niquer
Anti-dictionnaire Suppression des verbes et des mots fonctionnels Suppression des expressions courantes
Lemmatisation à partir d’un dictionnaire chante, chantaient, chanté, chanteront et éventuellement
chanteur sont ramenés a chanter
Réduire le nombre de dimensions de la matrice
Kessler Rémy 1005/06/2004
Représentation vectorielle
Matrice de fréquences Termes-CourrielsMatrice de fréquences Termes-Courriels
1
1 2 3 .... N-1 N
1
2
3 ....
3 1
1 2
1
4 1
1
2 1
i
j
P
0
0
0
0 0
00
0 0 0 0
0
0
0
0
0
0 0
0Courriels
Termes
Mij = Fréquence du terme i dans le courriel j
Kessler Rémy 1105/06/2004
Réduction de la taille de la matrice
Matrice réduiteMatrice réduite
1
1 2 3 .... N-1 N
1
2
3 ....
3 1
1 2
1
4 1
1
2 1
i
j
P
0
0
0
0 0
00
0 0 0 0
0
0
0
0
0
0 0
0Courriels
Termes
Kessler Rémy 1205/06/2004
Observation
Répartition des termes en fonction des courriels
Découpage des classes par les densités
Fortes densités des nouveaux termes dès
le début d’une nouvelle classe
05/06/2004 Kessler Rémy 13
Apprentissage
Kessler Rémy 1405/06/2004
K-Means /K-Means flou Choix de centroïdes (centre de la classe) puis calcul de la distance entre chaque vecteur (courriel) et ces centroïdes
Intérêt du flou : Le courriel X est à 0.9 pour le destinataire A et à 0.7 pour
le destinataire B
On le dirige vers A avec B en copie
Kessler Rémy 1505/06/2004
K-Means /K-Means flou (2)
Problème de l’initialisation
Initialisation aléatoire Minimaux locaux
Initialisation semi-supervisé Une faible partie des
exemples pour mieux placer les centroïdes
Kessler Rémy 1605/06/2004
Machines à support vectoriel
Proposé par Vapnik, celles ci reposent sur : Projection des données dans un espace de grande
dimension à l’aide d’une fonction noyau Classifieur permettant de maximiser les distances entre
les classes et donc de trouver les hyperplans optimaux
Kessler Rémy 1705/06/2004
Méthode hybride
Combinaison des 2 méthodes
Apprentissage non supervisé par K-means/ K-means flou
Apprentissage supervisé par Machines à support Vectoriel à partir des résultats obtenus par K-means
Généralisation sur des ensembles de test indépendant
Kessler Rémy 1805/06/2004
Chaîne de traitement
CorpusXml
MetainformationPièce jointe
Corps dumessage
Nettoyage
FiltrageLemmatisation
Générationde la matriceFuzzy K Means
/ K Means
SVM
Corpusde Courriels
KClasses
Classificationnon supervisée
Classificationsupervisée
Réductionde la matrice
SéparationApprentissage
Test
Matrice d’Apprentissage
Matrice de Test
05/06/2004 Kessler Rémy 19
Résultats
Kessler Rémy 2005/06/2004
Résultats
Méthode Hybride
Corpus de tests de P={200,500,1000}
K classes parmi :{football, jeux de rôles,
cinéma, ornithologie}
Écart-Type sur des séries de 10 Tests avec tirage aléatoire
Kessler Rémy 2105/06/2004
Résultats(2)
Pas de détérioration des performances en augmentant la taille du corpus
La courbe hybride est très proche de celle
des SVM
Kessler Rémy 2205/06/2004
Conclusion et perspectives particularité de langage phonécrit
Euristique de pré-traitement
Premiers résultats de la méthode hybride intéressants
Améliorer les performance des SVM
Combinaison de classifieurs (SVM, Bayes, LVQ, …)
Augmenter taille et du nombre de classes des corpus
05/06/2004 Kessler Rémy 23
Merci pour votre attention