Upload
marceline-bour
View
107
Download
4
Embed Size (px)
Citation preview
INF L11INF L11Langage et informatique 1Langage et informatique 1
Cours 7 – Moteurs de recherche : Détection de la langueCours 7 – Moteurs de recherche : Détection de la langue
ProblèmeProblème
Google (robots)Google (robots) détecter détecter
automatiquement la automatiquement la langue des langue des documents pour documents pour indexer indexer correctementcorrectement
Autre applicationAutre application traitement de textetraitement de texte
StatégieStatégie
Codage des caractèresCodage des caractères Critères statistiquesCritères statistiques
Fréquence des lettresFréquence des lettres Fréquence des bigrammes, trigrammesFréquence des bigrammes, trigrammes Fréquence des motsFréquence des mots
- I - - I - Codage des Codage des
caractères caractères
Code ASCIICode ASCII Débuts de l’informatiqueDébuts de l’informatique
Codage sur 7 bitsCodage sur 7 bits
Maximum 127 caract.Maximum 127 caract. 32 caract. spéciaux32 caract. spéciaux
00000000000001000001000000110000100000010100001100000111...
Windows (occidental)Windows (occidental)
Extension de Extension de l’ASCIIl’ASCII 8 bits8 bits 256 caractères256 caractères
Windows Europe Windows Europe CentraleCentrale
Windows GrecWindows Grec
UnicodeUnicode
LienLien Consortium Consortium UnicodeUnicode Article Unicode sur Article Unicode sur WikipediaWikipedia
Permet de représenter tous les Permet de représenter tous les caractères des toutes les langues du caractères des toutes les langues du mondemonde à l’heure actuelle (Unicode 4.0.0 = à l’heure actuelle (Unicode 4.0.0 =
96382 caract.)96382 caract.) Nécessite (pour l’instant) 21 bitsNécessite (pour l’instant) 21 bits
UTF-8UTF-8
Codage « économique » pour Codage « économique » pour UnicodeUnicode Certains caractères sur un octet (8 bits)Certains caractères sur un octet (8 bits) D’autres sur 2 octets (voire plus)D’autres sur 2 octets (voire plus)
ExempleExemple En français, le « En français, le « éé » est codé sur deux » est codé sur deux
octetsoctets si logiciel mal régré, il apparaît comme « si logiciel mal régré, il apparaît comme «
éé » »
- II - - II - Critères statistiquesCritères statistiques
FrançaisFrançais
0%
2%
4%
6%
8%
10%
12%
14%
16%
e s a i t n r u l o d c p m é v q f b g h j à x y è ê z w ç ù k î œ ï ë
AnglaisAnglais
0%
2%
4%
6%
8%
10%
12%
14%
e t a o i n s h r d l c u m w f g y p b v k j x q z
-15% -10% -5% 0% 5% 10% 15%
aàbcçdeéèêëf
ghiîïjkl
mno
œpqrst
uùv
wxyz
Anglais Français
Différentes languesDifférentes langues
Ordre des lettresOrdre des lettres
françaisfrançais esaitnrulodcpmévqfbghjàxyèêzwesaitnrulodcpmévqfbghjàxyèêzwçùkîœïëçùkîœïë
anglaisanglais etaoinshrdlcumwfgypbvkjxqz etaoinshrdlcumwfgypbvkjxqz
allemanallemandd
enisrthdaulcgmowbfzkvüpäöjyxq enisrthdaulcgmowbfzkvüpäöjyxq
espagnolespagnol aeosrnlidutcpmvgbfyhqaeosrnlidutcpmvgbfyhqóójìàzñéxùjìàzñéxùkw kw
italienitalien aeiolnrtscdupmvgfbzhqaeiolnrtscdupmvgfbzhqòàòàùìéèùìéèóóykykwxôwxô
portugaiportugaiss
aeosridntmucplvgfbhqãçaeosridntmucplvgfbhqãçááéìzjéìzjóóêxêxàõyùkâôw àõyùkâôw
Source
Grande variabilitéGrande variabilité
Dépend de la taille du documentDépend de la taille du document Dépend du type de documentDépend du type de document
ExemplesExemples style narratif (verbes à la 2e personne du style narratif (verbes à la 2e personne du
pluriel) pluriel) plus de « Z » plus de « Z » chemins de fer chemins de fer plus de « W » (wagon) plus de « W » (wagon) personnage Loïs personnage Loïs plus de « ï » plus de « ï » petites annonces petites annonces plus de € plus de €
ExemplesExemples
esaitnrulodesaitnrulodcpmévqfbghjàxyèêzwçùkîcpmévqfbghjàxyèêzwçùkîœïëœïë
Wikipédia Wikipédia 20042004
esaitnrulodesaitnrulodmcpvéqfgbhàxèyêzçôùâûmcpvéqfgbhàxèyêzçôùâûœkwïëüœkwïëüææññ
Engwall Engwall 1984 1984
esaitnrulodesaitnrulodcmpévqfbghjàxèyêzâçîùôcmpévqfbghjàxèyêzâçîùôûïkëwûïkëw
Brunet Brunet 18811881
eeirtnsacouldmpéfhgvqxbèjyçkwirtnsacouldmpéfhgvqxbèjyçkw Page Page d’accueil d’accueil www www VéronisVéronis
BigrammesBigrammes
Deux lettres consécutivesDeux lettres consécutives bonjour bonjour bo on nj jo ou ur bo on nj jo ou ur
Français Anglais Allemand Italien Espagnol Portugais
on th en di de de
es on er on en es
de an ch ri er to
te he ei er on da
nt er un al ci os
re nd de to es re
en in nd ta re en
le ti ge ne os er
it al re in io te
er re in re la ra
et io ie it ra nt
ti en te io na em
ou ri ng de ec do
io of he li al di
la or ne en ad it
oi at ht ni da al
ne it ic tt to ad
me to be la nt co
ro ed it ll ie ei
ns nt sc el el as
TrigrammesTrigrammes
Trois lettres consécutivesTrois lettres consécutives bonjour bonjour bon onj njo jou our bon onj njo jou our
Français Anglais Allemand Italien Espagnol Portugais
ion the der ion ion ent
tio and und zio cio ito
ent ion ein ell rec eit
oit tio ung one ere dir
ati ati cht lla der ire
roi igh ich rit ien rei
dro ght sch itt cho ção
men rig che del ent ade
tou ent ech iri ech dad
con ver die dir aci men
res one rec ess ona nte
que all ine ent nte dos
les eve eit azi con ess
des ery gen tto ene con
eme his ver ere tod tod
Mots les plus fréquentsMots les plus fréquents
Français Anglais Allemand
de the der
la of die
l' and und
et to in
les a den
des in von
à that zu
les is das
DémosDémos
A tester :A tester : TextCatTextCat XeroxXerox LexTexLexTex LangWitchLangWitch