1
Marie-Paule Jacques & Josette Rebeyrolle« Titres et structuration des documents »
Schedae
, 2006, prépublication n°1, (fascicule n°1, p. 1-12).
Schedae
,
2006
Titres et structuration des documents
Marie-Paule Jacques & Josette Rebeyrolle
ERSS (UMR5610)/Maison de la Recherche
Université Toulouse-Le Mirail – 5, allées A. Machado – 31058 Toulouse Cedex 9
[email protected], [email protected]
Résumé :
La structuration d’un document peut être assurée, entre autres moyens, par un découpage en
sections et sous-sections, généralement dotées d’un titre. Nous nous focalisons sur ces titres et
sur la façon dont, en plus d’assurer la segmentation et l’organisation visuelle du texte, ils contri-
buent à la construction de son contenu sémantique. Nos travaux antérieurs nous ayant permis de
dégager deux grands types d’implication des titres dans cette construction, la question essen-
tielle est ici de mettre au jour les corrélats formels qui permettent de distinguer ces deux types
d’implication et de montrer que selon le registre de textes l’implication des titres est différente.
Mots-clés : titres, document, linguistique du discours, structuration du texte, analyse de
corpus.
Abstract :
Textual organization of a document includes material characteristics such as sections which usu-
ally have a heading. We are particularly interested in headings and especially in how headings
contribute to the construction of the meaning of a text. In previous work a functional approach of
headings was presented in detail. In the present paper, our study is meant to identify in corpora
linguistic correlates of the two types of heading implication in discourse : referential/thematic. The
final corpus analysis shows how the headings are distributed in the texts of the corpus.
Keywords : headings, document, discourse linguistics, text structure, corpus analysis.
Sommairement
Sans entrer dans la délicate question de définir rigoureusement ce qu’est un docu-
ment
1
, nous considérerons qu’un document écrit est un texte i. qui forme un tout (même
si l’on peut y repérer une certaine intertextualité et/ou des références et renvois à d’autres
documents), ii. qui présente une organisation interne, notamment dans le cas de ce que
Prépublication n° 1 Fascicule n° 1
1. Voir la réflexion de Roger T. Pédauque (2003),
Document : forme, signe et médium, les re-formulations dunumérique
, disponible sur http://archivesic.ccsd.cnrs.fr/sic_00000413.html page consultée le 13-05-06.
2
Schedae
,
2006, prépublication n°1, (fascicule n°1, p. 1-12).
l’on peut appeler des documents longs tels que rapports, thèses, articles scientifiques,
ouvrages, etc.
Nous proposons ici une analyse descriptive de ce que nous pensons être des consti-
tuants essentiels de cette structuration : les titres de section. La suite explique moins som-
mairement la problématique.
Le document : un tout structuré
Aux deux caractéristiques formelles du document postulées ci-dessus correspondent
deux propriétés sémantiques : un document présente un niveau de contenu sémantique
et, simultanément, un niveau abstrait de structuration de ce contenu. Nous voulons dire
par là que le document ne délivre pas son contenu sémantique « en vrac », mais comme
contenu organisé, structuré, hiérarchisé. C’est de cet ensemble que le lecteur construit un
discours, c’est-à-dire un modèle mental de ce qui est en train de s’énoncer, au fur et à
mesure qu’il lit le document.
Divers modes de structuration discursive font l’objet de recherches, notamment les
moyens de cohésion lexicale, qui construisent des chaînes référentielles (Cornish 2003) ou
les expressions introductrices de cadres de discours, qui construisent des univers de dis-
cours particuliers, les cadres : « plusieurs propositions apparaissant dans le fil d’un texte
entretiennent un même rapport avec un certain critère et sont, de ce fait, regroupables à
l’intérieur d’unités que nous appellerons des
cadres
. » (Charolles 1997). À côté de ceux-là,
d’autres moyens de structuration discursive sont encore assez peu étudiés comme tels,
hormis par le même M. Charolles (2002). Il s’agit de la segmentation
matérielle
du texte
écrit en paragraphes, sections et sous-sections, ces dernières étant généralement dotées
d’un titre.
Ce découpage fournit au lecteur une structuration visuelle du texte qui, avant même
d’entrer dans son contenu, lui permet de commencer à construire la structuration discursive :
le lecteur perçoit des blocs, des enchâssements, qu’il peut utiliser comme autant de « cases
de l’esprit »
2
dans lesquelles classer les éléments du discours en train de se construire. Et
si les segments perceptibles visuellement sont titrés, alors les différents blocs ne constituent
plus d’anonymes étagères ou tiroirs pour ordonner le propos, classer et ranger les éléments
du discours, ils tirent aussi de leur titre d’autres éléments pour la structuration, qui sont pré-
cisément l’objet de notre étude.
Nous avons fait remarquer que ces moyens visuels d’organisation du texte n’ont guère
été étudiés en tant que moyens de structuration discursive, ce qui ne veut pas dire qu’ils n’ont
pas été étudiés du tout. Au contraire, le Modèle d’Architecture Textuelle (Luc & Virbel 2001)
est un cadre théorique qui rend compte du fait que, tout texte écrit étant inscrit sur un
sup-
port
, il possède des caractéristiques matérielles qui peuvent jouer un rôle au plan textuel
(plus récemment, voir aussi le travail de Power, Scott & Bouyad-Agah 2003). Par exemple,
on peut réaliser une énumération de diverses manières, en utilisant des marqueurs lexicaux
du type
le premier, le deuxième, le troisième
, ou bien en utilisant exclusivement des moyens
visuels : disposition dans l’espace du support, indentation, puces ou numéros… La figure
ci-dessous représente ces deux types d’énumération.
2. Précisons que cette expression ne véhicule aucune hypothèse sur notre conception de l’esprit. Nous lareprenons d’une communication d’Anne Le Draoulec, qui elle-même l’emprunte à Heinrich Weil (1844),
Del’ordre des mots dans les langues anciennes comparées aux langues modernes. Question de grammairegénérale
. Paris, Didier Érudition, réédition 1991.
3
Schedae
,
2006, prépublication n°1, (fascicule n°1, p. 1-12).
En prenant cette matérialité au sérieux, autrement dit en en faisant une composante à
part entière du texte, le Modèle d’Architecture Textuelle définit des objets textuels qui se
caractérisent par un contraste de mise en forme matérielle avec le reste du texte et par une
fonction au sein du texte. Sans développer outre mesure, parmi les objets textuels identi-
fiés dans le cadre de ce modèle, citons dans le désordre les énumérations, les paragraphes,
les titres.
Dans cet ensemble plus vaste que ces quelques exemples, nous nous focalisons sur
les titres de section car ils présentent la particularité d’être un objet à deux faces.
Les titres de section, objet à deux faces
L’une de leurs faces est constituée de cette propriété matérielle d’être un objet con-
trastant avec le reste du texte et opérant ainsi une segmentation, une délimitation en sec-
tions, sous-sections, sous-sous-sections, etc. Notons que les séparations ainsi marquées ne
sont pas de simples bornes de segments de textes car les titres sont hiérarchisés – une hié-
rarchie elle aussi marquée par des moyens typo-dispositionnels – et cette hiérarchisation se
répercute sur les sections titrées. De ce fait, nous l’avons déjà souligné, le texte peut être
appréhendé non comme une suite linéaire de blocs de natures diverses, mais comme une
structure faite d’éléments de plus haut niveau englobant d’autres éléments, hiérarchie qui
n’est assurément pas neutre.
Les titres présentent aussi une seconde face, non plus matérielle mais sémantique, liée
au fait que les titres sont composés d’unités lexicales et syntaxiques, porteuses elles-mêmes
d’une signification. Ce qui implique que les titres participent doublement à la construction
de la sémantique du document, non seulement ils segmentent et hiérarchisent, mais leur
propre contenu sémantique interagit avec le contenu sémantique du reste du texte. En un
certain sens, les titres sont à la fois
dans
et
hors
du texte.
Dans
parce que nous allons mon-
trer maintenant qu’ils sont partie prenante du contenu du texte, qu’ils remplissent certaines
fonctions discursives ;
hors
parce qu’ils ont ce statut particulier de se distinguer du
corps
de texte
, de jouer ce rôle d’organisateur textuel visuel.
Nous exposons maintenant les modalités pratiques de notre étude : quels textes, quelle
méthodologie ; puis nous indiquerons les résultats actuels de notre analyse. Dans la der-
nière partie, nous abordons un autre aspect de notre problématique : la relation entre forme-
fonction des titres et registre de textes.
Méthodologie, corpus et tout ça…
Pour comprendre quel est le rôle des titres sur le plan de la structuration discursive de
documents textuels, il est essentiel de disposer de documents textuels dans lesquels il y a
des titres et d’indicateurs de la fonction discursive des titres. Le premier point qui pourrait
paraître une boutade n’en est qu’à moitié une et nous sert à souligner que nous avons réso-
lument inscrit notre étude dans le cadre d’une analyse de corpus, c’est-à-dire que nous avons
réuni un ensemble de textes authentiques, comportant des titres de sections, nous allons
XXX__________________________________________________________________. Premièrement,
_________________________________________. Deuxièmement,_______________________________
_____________________________________________________________________. Troisièmement, _____
________________________________________________________________________.
XXX___________________________________________________.
1. ___________________________________________________________
2. ___________________________________________________________
3. ___________________________________________________________
Figure 1 : Énumérations discursive et visuelle.
4
Schedae
,
2006, prépublication n°1, (fascicule n°1, p. 1-12).
y revenir. Le second point n’est pas plus trivial : analyser les fonctions discursives des titres,
soit, mais avec quels instruments d’analyse ? À quoi s’apprécie le rôle joué par un titre au
niveau discursif ? Les deux choses sont liées dans la mesure où le type de support de l’ana-
lyse détermine en partie le type d’indicateurs.
Nous avons réuni trois ensembles de textes de provenances diverses : articles scienti-
fiques des domaines de l’ingénierie des connaissances et de la géopolitique ; écrits élabo-
rés dans un cadre professionnel de gestion des déplacements : comptes rendus, rapports,
projets, description de tâches… Ce corpus a été constitué de telle manière que chaque
ensemble présente un nombre équivalent de titres de section, pas tout à fait 350 pour cha-
que, avec un total de 1 041 titres.
Si nous avions suivi une façon de faire bien établie dans les études sur le discours, nous
aurions travaillé à l’identification des fonctions des titres à partir d’un petit nombre d’exem-
ples, authentiques ou fabriqués pour nos besoins, dont nous aurions proposé un classement
de nature à illustrer des fonctions discursives. Le nombre considéré ici se prête à une autre
démarche : non un classement global de chaque titre selon l’interprétation que l’on peut en
donner, mais une saisie plus analytique de traits formels. Cette démarche répond à diverses
exigences :
1 plus on s’appuie sur des traits formels, moins on fait entrer en jeu la subjecti-
vité et donc la dépendance d’un jugement à l’égard d’un analyste ;
2 on peut saisir ainsi plus facilement les variations qui ne concernent qu’un ou
deux des traits pris en considération, ce qui n’est guère facile lorsque le classe-
ment repose sur un jugement global ;
3 on obtient une quantification de chaque trait, à partir de laquelle on peut pro-
céder à des traitements statistiques qui permettent de mesurer les phénomè-
nes de corrélation, de co-variation ou d’indépendance ;
4 les fonctions décrites le sont non en terme d’interprétation, mais en terme de
corrélats linguistiques de nature formelle ;
5 il est possible de faire émerger diverses configurations de traits statistiquement
valides et de les mettre en rapport avec le genre de textes, comme on le verra
dans la dernière partie de l’article.
La clé de voûte de la démarche réside alors dans le choix des traits formels à prendre
en considération. Comme notre analyse vise les fonctions discursives des titres et la façon
dont ils contribuent à l’organisation du discours et à la construction de la sémantique du texte,
les traits choisis concernent d’une part des éléments factuels liés au titre indépendamment
de son co-texte, tels que la forme et le niveau du titre (par exemple, SN, SV, SP, niveau 1,
2, 3 ou 4), d’autre part des éléments co-textuels que nous supposons aptes à saisir la façon
dont le titre s’intègre au texte, tels que le fait que le titre ait été préalablement introduit
dans le discours et/ou qu’il fasse l’objet d’une reprise anaphorique.
S’agissant des premiers, outre la catégorie grammaticale (SN, SV, SP, phrase), nous
avons noté si le titre présente une partition interne telle qu’une coordination, par exemple :
Nature des savoirs et type de connaissance
ou une ponctuation, par exemple :
1. Deux grandes approches : l’ouverture ou la substitution aux importations.
Ceci nous permet de distinguer ce que nous avons appelé les titres bipartites des titres
qui sont formés d’un bloc syntaxique unique comme
La question agricole
ou
Penser la guerre
totale
.
Pour ce qui est des seconds, notre description la plus aboutie à ce jour porte sur les
reprises. Lorsque le titre fait l’objet d’une anaphore, on note :
5
Schedae
,
2006, prépublication n°1, (fascicule n°1, p. 1-12).
– la forme de la reprise :
• strictement identique ;• la totalité du lexique du titre mais pas nécessairement à l’identique ;• une partie seulement du titre ;• un pronom ;• une phrase présentative ou autre (
il s’agit…
).
– l’« éparpillement de la reprise » : reprise unique ou reprises à des endroits épars ;
– une éventuelle conversion, par ex.
comparaison
repris par le verbe
comparer
;
– la localisation de la reprise :
• 1
ère
phrase de la section ;• ailleurs dans le paragraphe.
– la position sujet ou non de la reprise ;
– la présence d’un autre titre et une éventuelle reprise dans cet autre titre.
L’annotation de ces modalités de reprise nous permet de construire un modèle théo-
rique des fonctions des titres. Nous exposons maintenant ce modèle tel qu’il s’est élaboré
au fur et à mesure de l’analyse des titres, et dans la section suivante, nous montrerons com-
ment l’analyse statistique corrobore en partie ce modèle.
Modèle des fonctions discursives des titres
Pour classer les titres, nous nous appuyons sur leur type d’implication dans l’organisa-
tion du contenu textuel (cf. Ho-Dac, Jacques & Rebeyrolle 2004 (classification inspirée de
Halliday 1985)). Et nous distinguons deux grands types d’implication : une implication réfé-
rentielle, c’est-à-dire une contribution du titre à la gestion des référents du discours, et une
implication thématique, c’est-à-dire une délimitation du thème général dans lequel s’inscrit
ce dont on va parler : un domaine d’activité, un domaine de connaissances, un point de vue,
une situation spatio-temporelle, etc., spécifiques. Ces deux pôles renvoient à des processus
interprétatifs différents : il s’agit dans le premier cas, d’attirer l’attention du lecteur sur un ou
des référents du discours particulier(s), dans le second, de canaliser certaines de ses connais-
sances d’arrière-plan.
De l’implication référentielle…
Les titres à implication référentielle constituent un maillon d’une chaîne de référence
dont les éléments s’égrènent au fil du texte, parfois avant, toujours après le titre. Celui-ci
assure généralement la mise en saillance de ce référent. Trois types se dégagent :
1. Titres préparatoires
Le référent exprimé dans le titre fait l’objet d’une introduction, en position saillante, dans
la première (ou éventuellement la seconde) phrase du paragraphe. Ce n’est qu’après cette
introduction, liée souvent à une explicitation ou une justification de ce que le référent a à
voir avec le propos global, que ce référent devient le
topic
des phrases qui suivent.
5.3. La réutilisation
L’une des techniques proposées pour faciliter le processus de modélisation, en ingénierie des
besoins comme en ingénierie des connaissances, est
la réutilisation
de modèles.
Elle
devient un
objectif prépondérant.
Il s’agit de
réutiliser des modèles (ou des parties de modèles) conçus
sous une forme générique, précédemment développés et stockés dans des bibliothèques spé-
cialisées.
2. Titres focalisateurs
Le titre remet au premier plan de l’attention un référent déjà présent dans le discours,
qui peut éventuellement avoir été introduit plusieurs sections ou paragraphes auparavant.
6
Schedae
,
2006, prépublication n°1, (fascicule n°1, p. 1-12).
Mais le Kremlin compte à la fois sur le jugement des dirigeants de ces pays et sur la vigilance
de leurs autres voisins, principalement
la Chine
et l’Iran. L’avenir décidera de la pertinence de
ces calculs. [deux paragraphes]
La Chine
Quoique de façon moins spectaculaire que la Russie,
la République populaire de Chine
(RPC)
n’a pas, elle non plus, hésité à se joindre à la Sainte-Alliance. […]
Mais
la Chine
avait deux raisons principales d’affirmer sa solidarité avec les États-Unis au lende-
main du 11 septembre. D’une part,
elle
doit faire face à ses propres problèmes de minorité […]
3. Titres installateurs
À la différence du type précédent, le référent n’a pas déjà été introduit dans le discours,
il ne fait pas non plus l’objet d’une introduction en début de section titrée, c’est le titre seul
qui installe le référent dans le discours.
3.3. L’ontologie computationnelle
L’ontologie computationnelle
est spécifiée dans le langage DefOnto (Barry et al. [2001]).
Elle
est obtenue en codant les propositions semi-informelles en propositions formelles (voir fig. 4).
… à l’implication thématique
Au pôle opposé, les titres à implication thématique ouvrent un espace thématique qui
est ensuite déployé dans la section. D’une certaine manière, ces titres condensent le con-
tenu de la section titrée pour délimiter, canaliser les connaissances et inférences qui devront
être mobilisées par le lecteur pour une interprétation de ce qui suit.
4.2. Adhésion et observance
À l’issue des expérimentations, 70 enregistrements de décision ont été exploitables, corres-
pondant à un total de 236 recommandations […]. En ce qui concerne
l’adhésion
, elle a été
meilleure […]. Quant à
l’observance
, les résultats obtenus…
Chacun des éléments du titre est repris dans un introducteur de cadre (Charolles 1997)
qui ponctue la section titrée et permet d’en ordonner le contenu.
Le titre thématique permet aussi de réduire l’univers de discours à un domaine de
connaissance, un point de vue, une situation spatio-temporelle :
4.1 Spécificités du contexte pédagogique
4.1.1. Du point de vue du domaine
[…]
4.1.2. Du point de vue de l’organisation de l’activité
[…]
4.1.3. D’un point de vue technique
Premièrement, l’interface a été conçue pour inciter les étudiants à utiliser certains outils […]
Deuxièmement, l’articulation des outils synchrones et asynchrones ne fait pas l’objet d’un dis-
positif
technique
, mais de l’intervention d’un des étudiants, rôle attribué par émergence.
Enfin, la circulation des données entre les étapes ne fait pas l’objet d’un dispositif
technique
;
elle est gérée par le tuteur, afin que celui-ci soit partie intégrante de l’activité.
Dans ce second exemple, le titre définit littéralement un
point de vue
à partir duquel les
spécificités du contexte pédagogique
sont abordées. Hormis l’adjectif
technique
qui réap-
paraît deux fois, réaffirmation de ce point de vue, ce titre ne donne pas lieu à une anaphore.
La bipolarité que nous venons d’exposer s’est faite jour lors de l’analyse manuelle des
titres, au fur et à mesure de leur annotation. Elle se fonde sur des corrélats formels qui per-
mettent de fixer des prototypes (au sens d’exemplaires typiques) de chaque extrémité.
7
Schedae
,
2006, prépublication n°1, (fascicule n°1, p. 1-12).
Corrélats formels
La mise au jour de corrélats de l’implication des titres dans le discours servira de base à
la construction de variables permettant la vérification sur corpus des hypothèses théoriques.
Pour caractériser formellement les titres, rappelons que nous disposons de deux grands
types de traits : des traits liés à la forme du titre, des traits liés à ses modalités de reprise.
Du côté de l’implication référentielle
se positionnent des titres :
– formés d’un bloc unique ;
– de type SN ;
– donnant lieu à une reprise :
• consistant en une répétition strictement identique du titre ou en uneanaphore pronominale, dans tous les cas une reprise unique ;
• immédiate ;• en position sujet.
Par exemple :
3. Notre méthode
Notre méthode
offre un cadre (fig. 1) au sein duquel les choix méthodologiques et techniques
proposés restent ouverts.
2.2.3 SYNTHÈSE DES BOUCHONS
Elle
fera l’objet d’une fiche, mentionnant la situation, au moment de la transmission, sur la zone
d’action du CETE du Sud-Ouest.
Du côté de l’implication thématique
se positionnent des titres :
– de type SP, SV, SN bipartites ou phrases ;
– donnant lieu à une reprise :
• d’une partie ou de l’ensemble des éléments lexicaux du titre, maiséparpillée dans le texte (reprise multiple) ;
• distante (pas la première phrase de la section) ;• en position autre que sujet.
Par exemple :
3.2. Analyse par scénarios et recueil
Concevoir l’ontologie, c’est d’abord identifier les notions du monde que l’on veut représenter.
Ces notions étant accessibles au travers du langage, il s’agit de
recueillir
et d’
analyser
des cor-
pus langagiers en étant guidé par des
scénarios
d’utilisation. Les corpus que nous avons
recueillis et analysés sont : […]
Soulignons qu’entre ces deux pôles qui représentent deux types d’implication tranchés,
la majorité des titres ne présente qu’une partie de ces caractères formels et se range plutôt
sur une position intermédiaire entre implication référentielle et implication thématique.
Nous éprouvons maintenant la validité de ce modèle bipolaire par des moyens statis-
tiques.
Validation statistique du modèle
Le modèle fonctionnel des titres de section tel que nous l’avons présenté est donc un
modèle qui articule divers traits linguistiques formels. Ainsi conçu le modèle présuppose
qu’une fonction donnée n’est pas liée à une variable unique, mais qu’elle dépend de
l’influence conjointe de divers facteurs. Dès lors que l’on envisage de mesurer statistique-
ment une telle influence, c’est une approche multifactorielle qui s’impose. Il s’agit en effet
d’une analyse qui permet de tenir compte non du rôle des variables indépendamment les
unes des autres mais de leur influence conjointe. Ce type d’analyse statistique permet de
8
Schedae
,
2006, prépublication n°1, (fascicule n°1, p. 1-12).
confirmer les oppositions posées théoriquement comme pertinentes en validant statisti-
quement ou non la pertinence des traits linguistiques considérés comme déterminants
pour classer les titres et d’interpréter ces classements en termes de fonctions discursives.
Plus précisément, l’analyse statistique sera utilisée ici pour regrouper les titres qui parta-
gent un ensemble de traits communs et pour les opposer à ceux qui partagent d’autres
traits. On pourrait, par exemple, obtenir les regroupements suivants : les titres qui ont la
forme d’un SN pourraient être rassemblés d’un côté, alors que les titres qui ont la forme
d’un SP, d’un SV ou d’un SN bipartite ou encore d’une phrase se trouveraient quant à eux
réunis de leur côté. Ce type de résultat serait un premier pas vers la validation de notre
modèle. Mais voyons maintenant les résultats que nous avons obtenus…
Deux dimensions
Au terme de l’analyse factorielle des correspondances multiples, nous retenons deux
axes factoriels (que nous appelons
dimensions
en utilisant la terminologie de D. Biber) qui
expliquent 30.5 % (de l’inertie totale), soit respectivement 19.89 %, pour le premier axe et
10.61 %, pour le second.
Dans les tableaux ci-dessous (de même que dans les figures qui suivent), nous faisons
apparaître uniquement les traits linguistiques qui contribuent le plus fortement à la défini-
tion des deux dimensions. Pour chaque trait, nous fournissons les coordonnées des varia-
bles - chaque variable est codée en oui/non : autrement dit si un titre a la forme d’un SN,
on codera « oui », si ce n’est pas le cas la même variable sera codée « non ». Les coordon-
nées permettent de positionner les modalités des variables sur les axes - et nous indiquons
leur contribution à la définition statistique de la dimension concernée.
3
Dimension 1 :
dimension formelle
Coordonnées ContributionsCôté positif de l’axe
le titre a la forme d’un bloc syntaxique unique de type SNSN = nonSN = oui
1,54-0,53
37,3
Côté négatif de l’axele titre a une forme bipartite (bipartite)
coordination = noncoordination = oui
ponctuation médiane = nonponctuation médiane = oui
-0,171,73
-0,221,90
13,4
19,1
la reprise est multiplenonoui
-0,350,66
10,6
Tableau 1 : Variables qui ont le plus de poids
3
sur la dimension 1.
Dimension 2 :
dimension cohésive
Coordonnées Contributions
Côté positif de l’axe
la reprise se fait en position sujetnonoui
-0,380,35
11,6
la reprise est lexicalenonoui
-0,301,46
21
Côté négatif de l’axe
la reprise est identiquenonoui
0,39-1,02
14,1
Tableau 2 : Variables qui ont le plus de poids sur la dimension 2.
3. Il s’agit des variables qui contribuent le plus fortement à la définition statistique de l’axe.
9
Schedae
,
2006, prépublication n°1, (fascicule n°1, p. 1-12).
On peut interpréter le premier axe comme une
dimension formelle
parce qu’il oppose
les titres en fonction de la forme syntaxique qu’ils revêtent. Les titres placés du côté positif
de l’axe sont les titres qui ont une structure syntaxique qu’on peut analyser comme bipartite
et ceux qui se trouvent réunis du côté négatif sont les titres qui ont la forme d’un syntagme
nominal.
On peut interpréter le second axe comme une
dimension cohésive
parce qu’il oppose
les titres en fonction de la forme sous laquelle s’opère la reprise. Les titres placés du côté
positif de l’axe sont les titres qui sont repris par le biais d’une reprise lexicale et ceux qui se
trouvent du côté négatif de l’axe sont ceux qui voient leur reprise se faire à l’identique ou
par le biais d’un pronom.
Confirmation de l’oppositionentre titres référentiels et titres thématiques
Rappelons que notre approche de la fonction des titres est une approche classificatoire
qui ordonne les titres sur un continuum allant du tout référentiel d’un côté, au tout théma-
tique de l’autre. Plus précisément, il s’agit d’une catégorisation graduelle qui oppose les
titres maximalement référentiels aux titres maximalement thématiques. Évidemment, la plu-
part des titres ne se trouvent pas au centre de ces deux grandes classes, mais ils se situent
à la périphérie. En d’autres termes, tous les titres ne remplissent pas nécessairement tous
les critères que nous avons définis comme pertinents. C’est cette hypothèse que nous per-
met de vérifier l’analyse multifactorielle. Afin de faciliter la lecture des résultats obtenus, nous
proposons ci-après une figure qui nous permet de visualiser l’opposition entre deux grandes
classes de titres que nous avons posées. Nous obtenons cette figure en croisant nos deux
dimensions. Ce croisement dessine un plan factoriel sur lequel nous pouvons situer les varia-
bles qui ont les plus fortes contributions.
Les cercles dessinés sur la figure nous servent à signaler les rapprochements statistiques
qui s’opèrent entre des sous-ensembles d’indices linguistiques que l’on a théoriquement
considérés comme définitoires de l’implication des titres.
D’un côté, en bas et à gauche, se trouvent réunis les titres qui se réalisent syntaxique-
ment sous la forme d’un syntagme nominal (SN) et qui sont repris dans le texte qui suit sous
une forme en tout point identique (reprise identique) et une seule fois dans la section titrée
(reprise unique). Ces trois éléments sont caractéristiques des titres dont l’implication dans
le texte a été qualifiée de référentielle.
De l’autre côté, en haut et à droite, se trouvent réunis les titres qui partagent les pro-
priétés suivantes : ils se réalisent syntaxiquement sous une forme bipartite, ils sont repris sous
la forme de l’une des unités lexicales qui les composent et cela dans diverses phrases de
la section titrée. Ces trois caractéristiques sont au nombre de celles que nous avons décri-
tes comme définitoires des titres dont l’implication notionnelle dans le texte est de type
thématique.
L’interprétation de l’analyse multifactorielle nous conduit à valider, au moins en partie,
notre modèle théorique. Mais en partie seulement et cela pour deux raisons. D’abord,
parce que certains indices linguistiques n’ont pas participé statistiquement à la définition
des deux dimensions que nous avons présentées. Il s’agit des deux variables suivantes : la
variable « localisation de la reprise » et la variable « le titre est un SV » (cf. § Méthodologie,
corpus et tout ça…). Ensuite, parce que d’autres indices vont dans le sens inverse de notre
modèle. C’est le cas notamment de la variable « position sujet de la reprise ». En outre,
contrairement à ce qu’affirme notre modèle, les reprises qui remplissent la fonction sujet
n’entretiennent pas de lien statistique avec les autres indices linguistiques caractéristiques
de l’implication référentielle.
10
Schedae
,
2006, prépublication n°1, (fascicule n°1, p. 1-12).
S’agissant des variables « localisation de la reprise » et « position sujet de la reprise »,
on observe cependant une forte corrélation, comme le montre le tableau suivant (X
2
signi-
ficatif à .000) :
Lorsque la reprise s’opère dans la phrase qui suit immédiatement le titre, elle occupe
la position syntaxique de sujet. En revanche, lorsque la reprise est localisée ailleurs dans la
section, elle assumera préférentiellement d’autres fonctions syntaxiques. Ce résultat nous
invite à construire une nouvelle variable combinant la fonction et la localisation afin de faire
entrer dans l’analyse les deux variables conjointes. Nous espérons alors mieux faire appa-
raître le lien entre la fonction syntaxique de sujet et la fonction référentielle du titre.
Titres référentiels ou thématiques :des préférences selon les genres textuels
Les résultats de l’analyse multifactorielle permettent de montrer que les titres n’assu-
ment pas les mêmes fonctions discursives dans tous les textes. Pour s’en convaincre, il suffit
d’observer la place qu’occupent les sous-corpus sur les deux dimensions dégagées. Mais
auparavant une précision s’impose. Pour bien comprendre ce qui est en jeu ici, il faut se
souvenir que les calculs statistiques ont été réalisés à partir d’informations qui décrivent les
titres eux-mêmes (forme, type de reprise, etc.). À ce stade, en revanche, il s’agit uniquement
de projeter les sous-corpus d’où sont extraits les titres analysés sur les axes qui ont été cal-
culés. En d’autres termes, les sous-corpus ne participent pas à l’analyse statistique, il s’agit
d’une information disponible (on connaît pour chaque titre le corpus d’où il est extrait) que
l’on projette sur les axes pour voir si les titres tirés des mêmes sous-corpus se rassemblent
sur l’espace à deux dimensions défini par l’analyse statistique précédente. Ce sont préci-
sément ces regroupements que l’on fait apparaître sur la figure 3 (il s’agit ici de représenter
la place qu’occupe la variable supplémentaire « sous-corpus » dans le plan factoriel obtenu
par le croisement des deux dimensions). Pour interpréter cette figure, il faut observer suc-
cessivement les deux axes :
Figure 2 : Validation de l’hypothèse d’une opposition entre des titres référentiels et des titres thématiques.
Première phrase Ailleurs
nbre d’occ % nbre d’occ %
Non sujet
246 45 77
65
323
Sujet 306
55
41 35 347
Total 552 100 % 118 100 %
Tableau 3 : La fonction syntaxique de la reprise dépend sa localisation
.
reprise partielle
position sujet reprise lexicale
reprise multiple
Titre bipartite
reprise identique
reprise unique
Bloc unique : SN
titres référentiels
titres thématiques
Dimension 1 : formelle
Dimension 2 : cohésion
11
Schedae, 2006, prépublication n°1, (fascicule n°1, p. 1-12).
– sur le premier axe (dimension 1), du côté positif, on observe que se trouvent réunis les
titres des articles des domaines géopolitique et ingénierie des connaissances alors
que les titres extraits des textes professionnels sont regroupés sur le côté négatif de
l’axe ;
– sur le second axe (dimension 2), on observe les mêmes regroupements : d’un côté, les
titres tirés de l’ensemble des articles scientifiques et de l’autre les titres extraits des
textes professionnels.
L’observation de la place qu’occupent les corpus sur les deux dimensions nous rensei-
gne sur les relations entre notre classement fonctionnel des titres et le genre des textes et
nous conduisent à la conclusion suivante : l’implication des titres dans le discours fournit un
indice du type de texte.
Conclusion
En appréhendant les documents écrits sous leur aspect matériel, on est conduit à pren-
dre en compte des éléments structurants qui s’imposent visuellement tels que les sections,
paragraphes et leurs titres. Nous nous sommes intéressées au rôle joué par ces derniers dans
la construction de la sémantique du texte et avons dégagé deux fonctions polaires par rap-
port, d’un côté à la gestion des référents, de l’autre à la thématique. Se construit ainsi de
l’une à l’autre un continuum sur lequel se placent les divers titres du corpus, en fonction des
valeurs des différents traits formels utilisés pour les caractériser.
La description précise des indices linguistiques de l’implication des titres dans le dis-
cours suivie de leur codage dans un vaste corpus permet de quantifier les indices considérés
comme théoriquement pertinents. Cette étape de validation empirique d’un modèle théo-
rique a été franchie avec un relatif succès, dans cette étude, puisque les corrélats formels
théoriquement pertinents l’ont été aussi statistiquement. Le travail de description sur la fonc-
tion syntaxique de la reprise doit néanmoins être poursuivi afin de mieux expliquer les résul-
tats contradictoires obtenus. Par ailleurs, l’ensemble des titres ne donnant pas lieu à anaphore
doit être caractérisé par les autres traits annotés. L’une de nos hypothèses actuelles est qu’ils
s’apparentent à des introducteurs de cadre, elle doit être maintenant explorée.
Le second enseignement que l’on peut tirer du travail présenté ici concerne les possi-
bilités de caractérisation du contenu textuel via les titres de section. L’analyse portant sur un
Figure 3 : Projection des sous-corpus sur les axes dégagés par l’analyse multifonctionnelle.
reprise partielle
position sujet reprise lexicale
reprise multiple
Titre bipartite
reprise identique
reprise unique
Bloc unique : SN
titres référentiels
titres thématiquesArticles géopolitique / ingénierie
Textes professionnels
12
Schedae, 2006, prépublication n°1, (fascicule n°1, p. 1-12).
corpus diversifié, on peut en effet affirmer qu’il existe des affinités entre certains types de
titres et certains genres ou registres de discours. Ce résultat ouvre sur une application pos-
sible de ce travail vers le profilage automatique de textes (Habert et al. 2000). Si ce résultat
se confirme sur un plus grand nombre de corpus, on peut imaginer faire entrer les caracté-
ristiques des titres parmi les différents traits de surface qui seraient utilisés pour une caté-
gorisation automatique des textes.
Dans le même genre de perspectives, plusieurs applications concrètes sont envisagea-
bles. Pour une navigation intradocumentaire sélective, le typage des titres s’avérerait fruc-
tueux, ce serait une information supplémentaire que le lecteur pourrait utiliser pour décider
de lire ou non telle ou telle portion de texte. Pour des tâches automatiques telles que la
recherche d’information, il semble de plus en plus nécessaire de cesser de considérer les
textes comme des « sacs de phrases » et de bâtir des systèmes qui prennent en compte leur
structuration. Les applications impliquant un accès au contenu textuel ont tout à gagner d’une
meilleure compréhension du fonctionnement de ces éléments de structuration.
BibliographieBIBER D. (2003), « Variation among University Spoken and Written Registers : a new multi-dimensional
analysis », in Corpus analysis. Language structure and language use, P. Leistyna & C. F. Meyer (éds),
Amsterdam – New York, Rodopi, p. 47-67.
CHAROLLES M. (1997), « L’encadrement du discours : univers, champs, domaines et espaces», Cahier de
Recherche Linguistique, 6, p. 1-73.
CHAROLLES M. (2002), « Organisation des discours et segmentation des écrits», in Actes de la rencontre
Inscription Spatiale du Langage : structures et processus, Toulouse, p. 31-39.
CORNISH F. (2003), « The roles of (written) text and anaphor-type distribution in the construction of
discourse », Text, 23, 1, p. 1-26.
HABERT B., ILLOUZ G., LAFON P., FLEURY, S., FOLCH H., HEIDEN S. & PRÉVOST S. (2000), « Profilage de textes :
cadre de travail et expérience », in JADT (Journées Internationales d’Analyse Statistique des Données
Textuelles), M. Rajman (éd.), Lausanne.
HALLIDAY M.A.K. (1985), An introduction to Functional Grammar, London, Edward Arnold.
HO-DAC M., JACQUES M.-P. & REBEYROLLE J. (2004), « Sur la fonction discursive des titres », in L’unité
texte, S. Porhiel & D. Klingler (éds.), Pleyben, Perspectives, p. 125-152.
LUC C., & VIRBEL J. (2001), « Le modèle d’architecture textuelle Fondements et expérimentation »,
Verbum, 23, 1, p. 103-123.
POWER R., SCOTT D. & BOUYAD-AGAH N. (2003), « Document structure », Computational Linguistics, 29, 2,
p. 211-260.