Building an Electronic Dictionary of Computer Science
Terminology
Farida AOUGHLISUniversité de Tizi ouzou
Email:[email protected]
PLAN
• Introduction.• Terminologie,noms composés.• Extraction automatique de terminologie.• Extraction manuelle de terminologie.• Dictionnaire des termes de l’informatique:
DELAC_INF.• Extraction automatique des termes de longueur 2.• Conclusion.
TERMINOLOGIE, NOMS COMPOSES
• Terminologie
• Terme
• Nom composé
• Dictionnaire spécialisé
Extraction automatique de terminologie
• Approches linguistiques ou syntaxiques
• Approches statistiques ou numériques
• Approches mixtes ou hybrides
Approches linguistiques
• TERMINO David S.,1990
• LEXTER Bourigault D.,1995
• FASTER Jacquemin C.,1997
• XTERM Cerbah F.,1999
• LEXPRO Savary A.,2000
Approches statistiques
• ANA Enguehard C., 1992
• MANTEX Oueslati R., 1999
Approches mixtes
• XTRACT Smadja F., 1993
• ACABIT Daille B., 1994
• ASIUM Faure D., 1998
Extraction manuelle de termes
• Collecte d’ouvrages
• Extraction
• Acquisition
Dictionnaire des termes de l’informatique DELAC_INF
Différentes classes recensées
• Composants binaires : 2 mots pleins
• Composants ternaires : 3 mots pleins
• Les plus longs : 4 mots pleins
• Les plus longs : 5 mots pleins
Composés de longueur 2
• NA Adressage absolu
• NN Mémoire tampon
• NPN Adressage par octets
• NDN Allocation de ressources
• AN Arrière-plan
• PN Sous programme
Composés de longueur 2 (suite)
• NPV Demande pour émettre
• NCN Sauvegarde et restauration
• VPN Désactiver par commentaires
• APN Lié au calcul
• XN Pseudo langage
• XA Non valide
Composés de longueur 3
• NAPN Allocation dynamique de mémoire• NPNPN Allocation de ressources en batch• NPAA Algorithme du premier adapté• NPXA Algorithme du mieux adapté• NPXN Appel de sous programme• NPNA Architecture à mémoire partagée• NPAN Bit de demi retenue
Composés de longueur 3 (suite)
• NXA Interruption non masquable
• NACA Unité arithmétique et logique
• NNN Bus Local PCI
• NAA Circuit intégré décimal
• XNPN Non retour à zéro
Composés les plus longs
• NX4 Algorithme préemptif à priorités dynamiques
• NX5 Traitement différé à flot de travail unique
Répartition des classes de longueur 2
0
200
400
600
800
1000
1200
Répartition des classes de longueur 3
020406080
100120140160180
Codification d’une entréePour le terme arbre de décision : %arbre[N1]/de/décision,.N+NDN :ms/+ ;un/inform/ /DON89
• N1 code du 1er nom du terme• / pour séparer chaque champ• .N classe possible si on a seulement champ comme terme• + ou bien• NDN classe du terme complet • ms genre et nombre du terme masculin,singulier• -+ flexion en genre , pas de féminin – flexion en nombre , pluriel +• un : déterminant utilisé • inform : information sémantique : le terme est un terme d’informatique • DON89 : origine du terme extrait manuellement (bibliographie)
• Dans le fichier des formes fléchies DELACF_INF nous aurons les entrées :• arbre de décision,arbre de décision.N+NDN+z0:ms/un• arbres de décision,arbre de décision.N+NDN+z0:mp/un
Extrait de la liste des termes• %langage(N1)/adapté(A32)/au/calculateur,.N+NAPN:ms/-+;un
• %langage(N1)/adapté(A32)/aux/problèmes/de/gestion,.N+NX4 :ms/-+;un
• %langage(N1)/algébrique(A31),.N+NA:ms/-+;un/ / Cegos80
• %langage(N1)/algorithmique(A31),.N+NA:ms/-+;un/ / Cegos80
• %langage(N1)/artificiel(A40),.N+NA:ms/-+;un/ / Cegos80
• %langage(N1)/bas/niveau,.N+NAN:ms/-+;un/ / Cegos80
• %langage(N1)/conversationnel(A40),.N+NA:ms/-+;un/ / Cegos80
• %langage(N1)/de/assemblage,.N+NDN:ms/-+;un/ / Cegos80
• %langage(N1)/de/balisage,.N+NDN:ms/-+;un/ / Cegos80
• %langage(N1)/de/commande,.N+NDN:ms/-+;un/ / Cegos80
• %langage(N1)/de/compilation,.N+NDN:ms/-+;un/ / Cegos80
• %langage(N1)/de/description/de/page/HTML,.N+NX4:ms/-+;un
• %langage(N1)/de/description/des/données,.N+NPNPN:ms/-+;un/ / Cegos80
• %langage(N1)/de/manipulation/des/données,.N+NPNPN:ms/-+;un/ / Cegos80
Acquisition automatique de termes de longueur 2
• Patrons syntaxiques• ATN utilisés• Traitement phrase par phrase • Le terminologue valide ou rejette les
candidats termes• Les termes simples peuvent être rajoutés• Voir adaptation INTEX
Conclusion & Perspectives