39
28/06/22 André Salem Carcassonne - Août 2009 L’approche textométrique des corpus textuels André Salem Systèmes linguistiques, énonciation et discursivité (SYLED - EA 2290) Université de la Sorbonne nouvelle - Paris 3

L’approche textométrique des corpus textuels

  • Upload
    dillon

  • View
    38

  • Download
    2

Embed Size (px)

DESCRIPTION

L’approche textométrique des corpus textuels. André Salem Systèmes linguistiques, énonciation et discursivité (SYLED - EA 2290) Université de la Sorbonne nouvelle - Paris 3. Analyses textuelles sur corpus. Corpus. Commentaires. Interprétation. Codage. Analyses automatisées. - PowerPoint PPT Presentation

Citation preview

Page 1: L’approche textométrique des corpus textuels

21/04/23 André Salem Carcassonne - Août 2009

L’approche textométrique des corpus textuels

André SalemSystèmes linguistiques, énonciation et discursivité

(SYLED - EA 2290)Université de la Sorbonne nouvelle - Paris 3

Page 2: L’approche textométrique des corpus textuels

21/04/23 André Salem Carcassonne - Août 2009

Analyses textuelles sur corpus

Inte

rpré

tati

on

Cod

age

CommentairesCorpus

Corpus codé

Résultats

Analyses automatisées

Analyses statistiques

Réorganisations textuelles

Autres

Page 3: L’approche textométrique des corpus textuels

21/04/23 André Salem Carcassonne - Août 2009

Ressources textuelles

Corpus codé

RésultatsAnalyses automatisées

Dictionnaires Ontologies Méthodesdirectes

Méthodes assistées

Méthodes assistées

Page 4: L’approche textométrique des corpus textuels

21/04/23 André Salem Carcassonne - Août 2009

26 août 1789

Les représentants du peuple français, constitués en Assemblée nationale, considérant que l'ignorance, l'oubli ou le mépris des droits de l'homme sont les seules causes des malheurs publics et de la corruption des gouvernements, ont résolu d'exposer, dans une déclaration solennelle, les droits naturels, inaliénables et sacrés de l'homme, afin que cette déclaration, constamment présente à tous les membres du corps social, leur rappelle sans cesse leurs droits et leurs devoirs ; afin que les actes du pouvoir législatif et ceux du pouvoir exécutif, pouvant être à chaque instant comparés avec .........

Déclaration des droits de l ’homme et du citoyen

Page 5: L’approche textométrique des corpus textuels

21/04/23 André Salem Carcassonne - Août 2009

Ce texte est assez court, ce qui rend délicate une analyse de contenu.Le domaine "anatomie" est le plus saillant du texteLe domaine "administration" est également un domaine d'importance.Le domaine "géométrie" est le troisième domaine saillant.Dans la thématique de ce texte, la collectivité, par opposition à l'univers et à l'humain, occupe une place capitale.D'une façon plus précise, l'analyse des thèmes généraux de ce texte indique une prédominance des thèmes suivants : "Le droit" et "La volonté".

« Synthèse » produite par CORDIAL

Page 6: L’approche textométrique des corpus textuels

21/04/23 André Salem Carcassonne - Août 2009

Ce qu’on ne peut pas faire avec un ordinateur le thème de la mise à mort dans le Père Duchesne.

faire jouer X à la main chaude (numéro 272) (faire) perdre le goût du pain (numéro 272)

mettre la tête à la fenêtre (numéro 272)jouer à la boule (numéro 280)

mettre la tête à la lunette (numéro 286)(faire) faire la bascule (numéro 303)

faire la fatale culbute (numéro 304)voyager dans la charrette de Samson (numéro 294)

faire le voyage dans la voiture aux trente-six portières (numéro 321)éternuer dans le sac (numéro 317)cracher dans le sac (numéro 341)

avoir la tête dans le sac (numéro 304)faire la grimace au pont rouge (numéro 319)

Page 7: L’approche textométrique des corpus textuels

21/04/23 André Salem Carcassonne - Août 2009

Ce qu’on ne peut faire qu’avec un ordinateur

à cause de l’ampleur de la tâche

index concordances étiquetage calculs statistiques visualisations

à cause de la précision insuffisante de la lecture cursive

repérage des figements repérage des altérations etc.

Page 8: L’approche textométrique des corpus textuels

21/04/23 André Salem Carcassonne - Août 2009

Segments répétés [Congrès CGT 1978] § L’avenir socialiste de la France § le régime capitaliste fait apparaître de manière aiguë et massive

ses tares et ses absurdités, son incapacité profonde /…/ § Dès sa fondation, la CGT s’est assigné pour but de

transformer la société capitaliste en mettant un terme à l’exploitation capitaliste /…/

§ Pour la CGT, le socialisme est indissociable de la liberté/…/ /…/ § Les réflexions exposées dans ce document constituent une base

commune aux organisations de la CGT pour la poursuite de la réflexion et de la discussion tant avec les travailleurs qu’avec les forces intéressées à ce but et pour laquelle la CGT demeure disponible.

Page 9: L’approche textométrique des corpus textuels

21/04/23 André Salem Carcassonne - Août 2009

Distance entre textes<T=a1> aa abab bba ba ba abababr fdf av hh o o o hjhh oo oo bba ba ba abababr fdf av hh bba ba ba abababr fdf av hh o aa abab <T=a2> aa abab bba ba ba abababr fdf av hh o o o hjhh oo oo bba ba ba abababr fdf av hh bba ba ba abababr fdf av hh o o<T=a3> bab bba ba ba abababr fdf av fdf av hh bba ba ba fdf

a1 a2 a3 …. an

delalesetdes

yyzz a1 a2 a3 … an

a1a2a3

an

8978352815

0 1

9958452819

1 0

8258352420

0 0

7663382820

0 0

0.78.35

.35

0.35

.42

0

.56

.0

Page 10: L’approche textométrique des corpus textuels

21/04/23 André Salem Carcassonne - Août 2009

Analyse factorielleClassification automatique

(cas général)

Analyses typologiques

Page 11: L’approche textométrique des corpus textuels

21/04/23 André Salem Carcassonne - Août 2009

Ngrammes (lib, ber, rté)Racines (liberté(s), libre, libérer)Lemme (liberté, libertés)

Forme graphique (liberté)

Segments (liberté de la presse)Coocurrences (liberté + égalité)

Les unités de décompte

Page 12: L’approche textométrique des corpus textuels

21/04/23 André Salem Carcassonne - Août 2009

Les types généralisés (Tgen)Les types généralisés (Tgen) sous-ensemble d ’occurrences du corpussous-ensemble d ’occurrences du corpus

Exemples de Tgen(s) les occurrences d ’un segment répétés les cooccurrences de deux formes à l ’intérieur de

phrases. un ensemble de formes présentant un lien au plan

sémantique le résultat d ’un surlignage sélectif par un humain une classe de fréquence

Page 13: L’approche textométrique des corpus textuels

21/04/23 André Salem Carcassonne - Août 2009

CFDT 1973-1998CFDT 1973-1998

Ventilations de la forme :

négociation

et du TGen

négo+

Page 14: L’approche textométrique des corpus textuels

21/04/23 André Salem Carcassonne - Août 2009

CFDT 1973-1998CFDT 1973-1998

Vers une topographie textuelle

TGen :négo+

Page 15: L’approche textométrique des corpus textuels

21/04/23 André Salem Carcassonne - Août 2009

CFDT congrès de 1998,CFDT congrès de 1998, §§ 2051-2052

§ dans les négociations d'entreprise et de branche, dans les fonctions publiques et les entreprises publiques, la CFDT lie de manière dynamique et diversifiée les salaires et l'emploi.§ le choix de l'emploi par la RTT fait de la compensation salariale un des éléments de la négociation, sans a priori dans un sens ou dans l'autre. dans ces négociations, les équipes syndicales prennent en compte le volume d'emplois créés, l'ampleur de la RTT, la participation de l'entreprise et le niveau des salaires et de ses éléments accessoires (intéressement, participation, actionnariat...).

Page 16: L’approche textométrique des corpus textuels

21/04/23 André Salem Carcassonne - Août 2009

La résonance textuelle

Explorations de corpus à partir de préoccupations issues de l’analyse de discours

André SalemSystèmes linguistiques, énonciation et discursivité

(SYLED - EA 2290)Université de la Sorbonne nouvelle - Paris 3

Page 17: L’approche textométrique des corpus textuels

21/04/23 André Salem Carcassonne - Août 2009

Corpus de textes alignés

Volet 1 : Texte original

Conference=E01

Volet 2 : Traduction°A

Volet 3 : Traduction B

Conference=A01

Conférence=E02

Conference=

Conferenc

Conférence=B01

Page 18: L’approche textométrique des corpus textuels

21/04/23 André Salem Carcassonne - Août 2009

Corpus multilingues

rapports de co-traduction

texte original

traductio

n Atraductio

n B

rapport cible-source

rapport de traduction rapport de traduction

rapport cible-source

Page 19: L’approche textométrique des corpus textuels

21/04/23 André Salem Carcassonne - Août 2009

IntroΨ

Page 20: L’approche textométrique des corpus textuels

21/04/23 André Salem Carcassonne - Août 2009

Débat Mitterrand / J. Chirac (présidentielles de 1988

ÉLIE VANNIER Nous reviendrons au problème du chômage tout à l’heure… JACQUES CHIRAC … Je voudrais simplement dire un mot sur la présentation que fait M. Mitterrand du chômage. Non, monsieur Mitterrand, nous n’avons pas tous échoué de la même façon… FRANÇOIS MITTERRAND … C’était pire avec vous!… Vous avez doublé… JACQUES CHIRAC … Vous me permettrez de parler de l’actualité… FRANÇOIS MITTERRAND Ah oui… c’est cela!… Vous voulez éviter le passé lorsqu’il est lourd!… JACQUES CHIRAC J’assume toutes mes responsabilités, monsieur Mitterrand…

Page 21: L’approche textométrique des corpus textuels

21/04/23 André Salem Carcassonne - Août 2009

Introduction à la résonance textuelle (1)

sélection des paragraphes contenant un terme

termes d’induction

alignement

Locuteur A Locuteur B

Page 22: L’approche textométrique des corpus textuels

21/04/23 André Salem Carcassonne - Août 2009

Introduction à la résonance textuelle (2)

résonance dans des textes alignés en paragraphes

termes d’induction

alignement

Locuteur A Locuteur B

réponse

Page 23: L’approche textométrique des corpus textuels

21/04/23 André Salem Carcassonne - Août 2009

Introduction à la résonance textuelle (4)

J. Chiracje voudrais répondre, moi , très clairement en m' appuyant sur mon bilan dans cette affaire ; parce que c' est très gentil de faire des promesses, mais enfin, encore faut il qu ' elles soient rendues crédibles par un bilan. s ' agissant de l ' immigration tout court , il faut la stopper, parce que nous n ' avons plus les moyens de donner du travail à des étrangers. aussi , naturellement , en supposant quelques souplesses naturellement, mais il faut la stopper. s ' agissant de immigration clandestine, il faut évidemment lutter contre cette immigration avec beaucoup d ' énergie et reconduire les/…/

F. Mitterrand il faut d' abord distinguer , c' est un problème qui a été vraiment exagéré et compliqué à plaisir. il y a plusieurs catégories de personnes visées par le débat actuel . il y a d’abord ceux qui ne sont pas des immigrés, qui sont les enfants d'immigrés et qui sont nés sur notre sol . ceux - là ont vocation . ils sont français , sauf s ' ils en décident autrement à l' âge de dix-huit ans . il y a, ensuite , les naturalisés ; ce sont les immigrés qui désirent devenir français, là, l' administration étudie leur cas et il aboutit à reconnaître le droit à la naturalisation, selon son propre rythme. je n ' insiste pas. et puis il y a les immigrés /…/_

application : présidentielles françaises de 1988(deux tours de parole consécutifs)

Page 24: L’approche textométrique des corpus textuels

21/04/23 André Salem Carcassonne - Août 2009

The Shipwrecked Sailor 1

Ancient Egyptian textThe Shipwrecked Sailorc. 2200 BCE

André Salem, Romuald Schummer

Page 25: L’approche textométrique des corpus textuels

21/04/23 André Salem Carcassonne - Août 2009

The Shipwrecked Sailor 2

Page 26: L’approche textométrique des corpus textuels

21/04/23 André Salem Carcassonne - Août 2009

The Shipwrecked Sailor 3

Page 27: L’approche textométrique des corpus textuels

21/04/23 André Salem Carcassonne - Août 2009

The Shipwrecked Sailor 4<D=01Intro> <v=001> -D:d -i -n -Sms -w -A1 -i -q:r:Y1 -w -DA -A -Y1 § <v=002> -ib*Z1:V31A -HAt:a -A1 -m -a:V31A -pH:D54 -n:n:Z2 § <v=003> -Xn:n -nw -w -pr -Ssp:p -a -x:r -p*W:xt § <v=004> -H -A25 -A24 -mn:n -i -t -P11 -xt -HAt:t*t -W -r:a:t § <v=005> -Hr:Z1 -tA:Z1*N23 -r:a -H -V31A:n -nw:W -A2 -nTr -dwA § <v=006> -A30 -A2 -z:A1*Z1 -nb -Hr:Z1 -H -p:t -D32:a -sn -n:nw -w -A1 -y:f §<v=007> -iz -w:t -A1 -Z2 -t:n:Z2 -ii -i -t:D54 -aD:d -t:Y1 -D35:n §<v=008> -n:h -w -wr:n -mSa -A1:Z2 -n:Z2 -pH:D54 -n:n:Z2 § <v=009> -pH -w -y -wA -wA -t:xAst -z:n -X5:D54 -n:n:Z2 §

<D=01Intro> <v=001> un excellent suivant dit alors : apaise §<v=002> ton coeur, prince ! vois, nous avons atteint §<v=003> la résidence. le maillet est saisi et §<v=004> le poteau d'amarrage est frappé, l'amarre de proue ayant été portée §<v=005> à terre ; les prières sont dites, le dieu a été remercié §<v=006> et chaque homme embrasse son semblable, §<v=007> car notre équipage est revenu sain et sauf, sans §<v=008> perte pour notre troupe. nous avons atteint §<v=009> les confins de ouaouat, après avoir doublé §

Page 28: L’approche textométrique des corpus textuels

21/04/23 André Salem Carcassonne - Août 2009

The Shipwrecked Sailor 5

Page 29: L’approche textométrique des corpus textuels

21/04/23 André Salem Carcassonne - Août 2009

The Shipwecked Sailor 6

Page 30: L’approche textométrique des corpus textuels

21/04/23 André Salem Carcassonne - Août 2009

Séries textuelles chronologiques

Page 31: L’approche textométrique des corpus textuels

21/04/23 André Salem Carcassonne - Août 2009

Chronological textual series 1

Chinese communist party (1921-2007) 17 congresses homogeneity

0

5000

10000

15000

20000

25000

Page 32: L’approche textométrique des corpus textuels

21/04/23 André Salem Carcassonne - Août 2009

Chronological textual series 2

#<cong=2007># 胡锦涛 在 中国 共产党 第 十七 次 全国 代表 大会 上 的 报告 # 高举 中国 特色 社会主义 伟大 旗帜 为 夺取 全面 建设 小康 社会 新 胜利 而 奋斗 # - - 在 中国 共产党 第 十七 次 全国 代表 大会 上 的 报告 # ( 2007 年 10 月 15 日 ) # 胡锦涛 # 同志 们 : # 现在 , 我 代表 第 十六 届 中央 委员会 向 大会 作 报告 . # 中国 共产党 第 十七 次 全国 代表 大会 , 是 在 我国 改革 发展 关键 阶段 召开 的 一 次 十 分 重要 的 大会 . 大会 的 主题 是 : 高举 中国 特色 社会主义 伟大 旗帜 , 以 邓小平 理论 和 " 三个代表 " 重要 思想 为 指导 , 深入 贯彻 落实 科学 发展观 , 继续 解放 思想 , 坚持 改革开放 , 推动 科学 发展 , 促进 社会 和谐 , 为 夺取 全面 建设 小康 社会 新 胜利 而 奋斗 .

Page 33: L’approche textométrique des corpus textuels

21/04/23 André Salem Carcassonne - Août 2009

Chronological textual series 3

Page 34: L’approche textométrique des corpus textuels

21/04/23 André Salem Carcassonne - Août 2009

Chronological textual series 4spécificités positives majeures 1921-1928

Term French equivalent FTot. FPart Coeff

1 革命 révolution 577 213 ***

2 军阀 expédition militaire 67 64 ***

3 势力 puissance 126 85 ***

4 帝国主义 impérialisme 225 132 ***

5 运动 mouvement 176 91 47

6 国民 peuple 108 67 42

7 帝国主义者 impérialiste 49 44 40

8 小资产阶级 classe petite bourgeoise 62 46 35

9 所以 donc 78 52 35

10 之 (particule grammaticale)

215 85 33

11 阶级 classe

217 84 32

12 无产阶级 prolétariat

245 89 31

Page 35: L’approche textométrique des corpus textuels

21/04/23 André Salem Carcassonne - Août 2009

Chronological textual series 6

Page 36: L’approche textométrique des corpus textuels

21/04/23 André Salem Carcassonne - Août 2009

Chronological textual series 7repeated segments L>4 F>5

Page 37: L’approche textométrique des corpus textuels

21/04/23 André Salem Carcassonne - Août 2009

Chronological textual series 8

Page 38: L’approche textométrique des corpus textuels

21/04/23 André Salem Carcassonne - Août 2009

Chronological textual series 9

Section 806 (congrès de 2007) 改革开放 是 党 在 新 的 时代 条件 下 带领 人民 进行 的 新 的 伟大 革命 , 目的 就是 要 解放 和 发展 社会 生产力 , 实现 国家 现代化 , 让 中国 人民 富裕 起来 , 振兴 伟大 的 中华民族 ; 就是 要 推动 我国 社会主义制度 自我 完善 和 发展 , 赋予 社会主义 新 的 生机 活力 , 建设 和 发展 中国 特色 社会主义 ; 就是 要 在 引领 当代 中国 发展 进步 中 加强 和 改进 党的建设 , 保持 和 发展党 的 先进性 , 确保 党 始终 走 在 时代 前列 .

#la réforme et l'ouverture s'inscrivent dans la grande révolution menée par le peuple sous la direction du parti dans le nouveau contexte historique. cette révolution a pour mission de libérer et de développer les forces productives sociales, de moderniser notre pays, de faire accéder la population chinoise à la prospérité et de redresser la grande nation chinoise. cette révolution a également pour but de pousser le régime socialiste de notre pays vers l'auto-perfection et le développement, de procurer de nouvelles vitalités au socialisme, ainsi que de construire et développer le socialisme à la chinoise. tout en menant le progrès et le développement de notre pays, elle vise aussi, pour que le parti reste toujours à la pointe de notre époque, à renforcer et améliorer l'édification du parti, ainsi qu'à conserver et développer sa nature progressiste. #

Page 39: L’approche textométrique des corpus textuels

21/04/23 André Salem Carcassonne - Août 2009

Merci de votre attention