Download pdf - Titres et structuration des documentsiutcherbourgmanche.unicaen.fr/puc/images/preprint0012006.pdf · « Titres et structuration des documents » ... projets, description de tâches…

1

Marie-Paule Jacques & Josette Rebeyrolle« Titres et structuration des documents »

Schedae

, 2006, prépublication n°1, (fascicule n°1, p. 1-12).

Schedae

,

2006

Titres et structuration des documents

Marie-Paule Jacques & Josette Rebeyrolle

ERSS (UMR5610)/Maison de la Recherche

Université Toulouse-Le Mirail – 5, allées A. Machado – 31058 Toulouse Cedex 9

[email protected], [email protected]

Résumé :

La structuration d’un document peut être assurée, entre autres moyens, par un découpage en

sections et sous-sections, généralement dotées d’un titre. Nous nous focalisons sur ces titres et

sur la façon dont, en plus d’assurer la segmentation et l’organisation visuelle du texte, ils contri-

buent à la construction de son contenu sémantique. Nos travaux antérieurs nous ayant permis de

dégager deux grands types d’implication des titres dans cette construction, la question essen-

tielle est ici de mettre au jour les corrélats formels qui permettent de distinguer ces deux types

d’implication et de montrer que selon le registre de textes l’implication des titres est différente.

Mots-clés : titres, document, linguistique du discours, structuration du texte, analyse de

corpus.

Abstract :

Textual organization of a document includes material characteristics such as sections which usu-

ally have a heading. We are particularly interested in headings and especially in how headings

contribute to the construction of the meaning of a text. In previous work a functional approach of

headings was presented in detail. In the present paper, our study is meant to identify in corpora

linguistic correlates of the two types of heading implication in discourse : referential/thematic. The

final corpus analysis shows how the headings are distributed in the texts of the corpus.

Keywords : headings, document, discourse linguistics, text structure, corpus analysis.

Sommairement

Sans entrer dans la délicate question de définir rigoureusement ce qu’est un docu-

ment

1

, nous considérerons qu’un document écrit est un texte i. qui forme un tout (même

si l’on peut y repérer une certaine intertextualité et/ou des références et renvois à d’autres

documents), ii. qui présente une organisation interne, notamment dans le cas de ce que

Prépublication n° 1 Fascicule n° 1

1. Voir la réflexion de Roger T. Pédauque (2003),

Document : forme, signe et médium, les re-formulations dunumérique

, disponible sur http://archivesic.ccsd.cnrs.fr/sic_00000413.html page consultée le 13-05-06.

2

Schedae

,

2006, prépublication n°1, (fascicule n°1, p. 1-12).

l’on peut appeler des documents longs tels que rapports, thèses, articles scientifiques,

ouvrages, etc.

Nous proposons ici une analyse descriptive de ce que nous pensons être des consti-

tuants essentiels de cette structuration : les titres de section. La suite explique moins som-

mairement la problématique.

Le document : un tout structuré

Aux deux caractéristiques formelles du document postulées ci-dessus correspondent

deux propriétés sémantiques : un document présente un niveau de contenu sémantique

et, simultanément, un niveau abstrait de structuration de ce contenu. Nous voulons dire

par là que le document ne délivre pas son contenu sémantique « en vrac », mais comme

contenu organisé, structuré, hiérarchisé. C’est de cet ensemble que le lecteur construit un

discours, c’est-à-dire un modèle mental de ce qui est en train de s’énoncer, au fur et à

mesure qu’il lit le document.

Divers modes de structuration discursive font l’objet de recherches, notamment les

moyens de cohésion lexicale, qui construisent des chaînes référentielles (Cornish 2003) ou

les expressions introductrices de cadres de discours, qui construisent des univers de dis-

cours particuliers, les cadres : « plusieurs propositions apparaissant dans le fil d’un texte

entretiennent un même rapport avec un certain critère et sont, de ce fait, regroupables à

l’intérieur d’unités que nous appellerons des

cadres

. » (Charolles 1997). À côté de ceux-là,

d’autres moyens de structuration discursive sont encore assez peu étudiés comme tels,

hormis par le même M. Charolles (2002). Il s’agit de la segmentation

matérielle

du texte

écrit en paragraphes, sections et sous-sections, ces dernières étant généralement dotées

d’un titre.

Ce découpage fournit au lecteur une structuration visuelle du texte qui, avant même

d’entrer dans son contenu, lui permet de commencer à construire la structuration discursive :

le lecteur perçoit des blocs, des enchâssements, qu’il peut utiliser comme autant de « cases

de l’esprit »

2

dans lesquelles classer les éléments du discours en train de se construire. Et

si les segments perceptibles visuellement sont titrés, alors les différents blocs ne constituent

plus d’anonymes étagères ou tiroirs pour ordonner le propos, classer et ranger les éléments

du discours, ils tirent aussi de leur titre d’autres éléments pour la structuration, qui sont pré-

cisément l’objet de notre étude.

Nous avons fait remarquer que ces moyens visuels d’organisation du texte n’ont guère

été étudiés en tant que moyens de structuration discursive, ce qui ne veut pas dire qu’ils n’ont

pas été étudiés du tout. Au contraire, le Modèle d’Architecture Textuelle (Luc & Virbel 2001)

est un cadre théorique qui rend compte du fait que, tout texte écrit étant inscrit sur un

sup-

port

, il possède des caractéristiques matérielles qui peuvent jouer un rôle au plan textuel

(plus récemment, voir aussi le travail de Power, Scott & Bouyad-Agah 2003). Par exemple,

on peut réaliser une énumération de diverses manières, en utilisant des marqueurs lexicaux

du type

le premier, le deuxième, le troisième

, ou bien en utilisant exclusivement des moyens

visuels : disposition dans l’espace du support, indentation, puces ou numéros… La figure

ci-dessous représente ces deux types d’énumération.

2. Précisons que cette expression ne véhicule aucune hypothèse sur notre conception de l’esprit. Nous lareprenons d’une communication d’Anne Le Draoulec, qui elle-même l’emprunte à Heinrich Weil (1844),

Del’ordre des mots dans les langues anciennes comparées aux langues modernes. Question de grammairegénérale

. Paris, Didier Érudition, réédition 1991.

3

Schedae

,


En prenant cette matérialité au sérieux, autrement dit en en faisant une composante à

part entière du texte, le Modèle d’Architecture Textuelle définit des objets textuels qui se

caractérisent par un contraste de mise en forme matérielle avec le reste du texte et par une

fonction au sein du texte. Sans développer outre mesure, parmi les objets textuels identi-

fiés dans le cadre de ce modèle, citons dans le désordre les énumérations, les paragraphes,

les titres.

Dans cet ensemble plus vaste que ces quelques exemples, nous nous focalisons sur

les titres de section car ils présentent la particularité d’être un objet à deux faces.

Les titres de section, objet à deux faces

L’une de leurs faces est constituée de cette propriété matérielle d’être un objet con-

trastant avec le reste du texte et opérant ainsi une segmentation, une délimitation en sec-

tions, sous-sections, sous-sous-sections, etc. Notons que les séparations ainsi marquées ne

sont pas de simples bornes de segments de textes car les titres sont hiérarchisés – une hié-

rarchie elle aussi marquée par des moyens typo-dispositionnels – et cette hiérarchisation se

répercute sur les sections titrées. De ce fait, nous l’avons déjà souligné, le texte peut être

appréhendé non comme une suite linéaire de blocs de natures diverses, mais comme une

structure faite d’éléments de plus haut niveau englobant d’autres éléments, hiérarchie qui

n’est assurément pas neutre.

Les titres présentent aussi une seconde face, non plus matérielle mais sémantique, liée

au fait que les titres sont composés d’unités lexicales et syntaxiques, porteuses elles-mêmes

d’une signification. Ce qui implique que les titres participent doublement à la construction

de la sémantique du document, non seulement ils segmentent et hiérarchisent, mais leur

propre contenu sémantique interagit avec le contenu sémantique du reste du texte. En un

certain sens, les titres sont à la fois

dans

et

hors

du texte.

Dans

parce que nous allons mon-

trer maintenant qu’ils sont partie prenante du contenu du texte, qu’ils remplissent certaines

fonctions discursives ;

hors

parce qu’ils ont ce statut particulier de se distinguer du

corps

de texte

, de jouer ce rôle d’organisateur textuel visuel.

Nous exposons maintenant les modalités pratiques de notre étude : quels textes, quelle

méthodologie ; puis nous indiquerons les résultats actuels de notre analyse. Dans la der-

nière partie, nous abordons un autre aspect de notre problématique : la relation entre forme-

fonction des titres et registre de textes.

Méthodologie, corpus et tout ça…

Pour comprendre quel est le rôle des titres sur le plan de la structuration discursive de

documents textuels, il est essentiel de disposer de documents textuels dans lesquels il y a

des titres et d’indicateurs de la fonction discursive des titres. Le premier point qui pourrait

paraître une boutade n’en est qu’à moitié une et nous sert à souligner que nous avons réso-

lument inscrit notre étude dans le cadre d’une analyse de corpus, c’est-à-dire que nous avons

réuni un ensemble de textes authentiques, comportant des titres de sections, nous allons

XXX__________________________________________________________________. Premièrement,

_________________________________________. Deuxièmement,_______________________________

_____________________________________________________________________. Troisièmement, _____

________________________________________________________________________.

XXX___________________________________________________.

1. ___________________________________________________________

2. ___________________________________________________________

3. ___________________________________________________________

Figure 1 : Énumérations discursive et visuelle.

4

Schedae

,


y revenir. Le second point n’est pas plus trivial : analyser les fonctions discursives des titres,

soit, mais avec quels instruments d’analyse ? À quoi s’apprécie le rôle joué par un titre au

niveau discursif ? Les deux choses sont liées dans la mesure où le type de support de l’ana-

lyse détermine en partie le type d’indicateurs.

Nous avons réuni trois ensembles de textes de provenances diverses : articles scienti-

fiques des domaines de l’ingénierie des connaissances et de la géopolitique ; écrits élabo-

rés dans un cadre professionnel de gestion des déplacements : comptes rendus, rapports,

projets, description de tâches… Ce corpus a été constitué de telle manière que chaque

ensemble présente un nombre équivalent de titres de section, pas tout à fait 350 pour cha-

que, avec un total de 1 041 titres.

Si nous avions suivi une façon de faire bien établie dans les études sur le discours, nous

aurions travaillé à l’identification des fonctions des titres à partir d’un petit nombre d’exem-

ples, authentiques ou fabriqués pour nos besoins, dont nous aurions proposé un classement

de nature à illustrer des fonctions discursives. Le nombre considéré ici se prête à une autre

démarche : non un classement global de chaque titre selon l’interprétation que l’on peut en

donner, mais une saisie plus analytique de traits formels. Cette démarche répond à diverses

exigences :

1 plus on s’appuie sur des traits formels, moins on fait entrer en jeu la subjecti-

vité et donc la dépendance d’un jugement à l’égard d’un analyste ;

2 on peut saisir ainsi plus facilement les variations qui ne concernent qu’un ou

deux des traits pris en considération, ce qui n’est guère facile lorsque le classe-

ment repose sur un jugement global ;

3 on obtient une quantification de chaque trait, à partir de laquelle on peut pro-

céder à des traitements statistiques qui permettent de mesurer les phénomè-

nes de corrélation, de co-variation ou d’indépendance ;

4 les fonctions décrites le sont non en terme d’interprétation, mais en terme de

corrélats linguistiques de nature formelle ;

5 il est possible de faire émerger diverses configurations de traits statistiquement

valides et de les mettre en rapport avec le genre de textes, comme on le verra

dans la dernière partie de l’article.

La clé de voûte de la démarche réside alors dans le choix des traits formels à prendre

en considération. Comme notre analyse vise les fonctions discursives des titres et la façon

dont ils contribuent à l’organisation du discours et à la construction de la sémantique du texte,

les traits choisis concernent d’une part des éléments factuels liés au titre indépendamment

de son co-texte, tels que la forme et le niveau du titre (par exemple, SN, SV, SP, niveau 1,

2, 3 ou 4), d’autre part des éléments co-textuels que nous supposons aptes à saisir la façon

dont le titre s’intègre au texte, tels que le fait que le titre ait été préalablement introduit

dans le discours et/ou qu’il fasse l’objet d’une reprise anaphorique.

S’agissant des premiers, outre la catégorie grammaticale (SN, SV, SP, phrase), nous

avons noté si le titre présente une partition interne telle qu’une coordination, par exemple :

Nature des savoirs et type de connaissance

ou une ponctuation, par exemple :

1. Deux grandes approches : l’ouverture ou la substitution aux importations.

Ceci nous permet de distinguer ce que nous avons appelé les titres bipartites des titres

qui sont formés d’un bloc syntaxique unique comme

La question agricole

ou

Penser la guerre

totale

.

Pour ce qui est des seconds, notre description la plus aboutie à ce jour porte sur les

reprises. Lorsque le titre fait l’objet d’une anaphore, on note :

5

Schedae

,


– la forme de la reprise :

• strictement identique ;• la totalité du lexique du titre mais pas nécessairement à l’identique ;• une partie seulement du titre ;• un pronom ;• une phrase présentative ou autre (

il s’agit…

).

– l’« éparpillement de la reprise » : reprise unique ou reprises à des endroits épars ;

– une éventuelle conversion, par ex.

comparaison

repris par le verbe

comparer

;

– la localisation de la reprise :

• 1

ère

phrase de la section ;• ailleurs dans le paragraphe.

– la position sujet ou non de la reprise ;

– la présence d’un autre titre et une éventuelle reprise dans cet autre titre.

L’annotation de ces modalités de reprise nous permet de construire un modèle théo-

rique des fonctions des titres. Nous exposons maintenant ce modèle tel qu’il s’est élaboré

au fur et à mesure de l’analyse des titres, et dans la section suivante, nous montrerons com-

ment l’analyse statistique corrobore en partie ce modèle.

Modèle des fonctions discursives des titres

Pour classer les titres, nous nous appuyons sur leur type d’implication dans l’organisa-

tion du contenu textuel (cf. Ho-Dac, Jacques & Rebeyrolle 2004 (classification inspirée de

Halliday 1985)). Et nous distinguons deux grands types d’implication : une implication réfé-

rentielle, c’est-à-dire une contribution du titre à la gestion des référents du discours, et une

implication thématique, c’est-à-dire une délimitation du thème général dans lequel s’inscrit

ce dont on va parler : un domaine d’activité, un domaine de connaissances, un point de vue,

une situation spatio-temporelle, etc., spécifiques. Ces deux pôles renvoient à des processus

interprétatifs différents : il s’agit dans le premier cas, d’attirer l’attention du lecteur sur un ou

des référents du discours particulier(s), dans le second, de canaliser certaines de ses connais-

sances d’arrière-plan.

De l’implication référentielle…

Les titres à implication référentielle constituent un maillon d’une chaîne de référence

dont les éléments s’égrènent au fil du texte, parfois avant, toujours après le titre. Celui-ci

assure généralement la mise en saillance de ce référent. Trois types se dégagent :

1. Titres préparatoires

Le référent exprimé dans le titre fait l’objet d’une introduction, en position saillante, dans

la première (ou éventuellement la seconde) phrase du paragraphe. Ce n’est qu’après cette

introduction, liée souvent à une explicitation ou une justification de ce que le référent a à

voir avec le propos global, que ce référent devient le

topic

des phrases qui suivent.

5.3. La réutilisation

L’une des techniques proposées pour faciliter le processus de modélisation, en ingénierie des

besoins comme en ingénierie des connaissances, est

la réutilisation

de modèles.

Elle

devient un

objectif prépondérant.

Il s’agit de

réutiliser des modèles (ou des parties de modèles) conçus

sous une forme générique, précédemment développés et stockés dans des bibliothèques spé-

cialisées.

2. Titres focalisateurs

Le titre remet au premier plan de l’attention un référent déjà présent dans le discours,

qui peut éventuellement avoir été introduit plusieurs sections ou paragraphes auparavant.

6

Schedae

,


Mais le Kremlin compte à la fois sur le jugement des dirigeants de ces pays et sur la vigilance

de leurs autres voisins, principalement

la Chine

et l’Iran. L’avenir décidera de la pertinence de

ces calculs. [deux paragraphes]

La Chine

Quoique de façon moins spectaculaire que la Russie,

la République populaire de Chine

(RPC)

n’a pas, elle non plus, hésité à se joindre à la Sainte-Alliance. […]

Mais

la Chine

avait deux raisons principales d’affirmer sa solidarité avec les États-Unis au lende-

main du 11 septembre. D’une part,

elle

doit faire face à ses propres problèmes de minorité […]

3. Titres installateurs

À la différence du type précédent, le référent n’a pas déjà été introduit dans le discours,

il ne fait pas non plus l’objet d’une introduction en début de section titrée, c’est le titre seul

qui installe le référent dans le discours.

3.3. L’ontologie computationnelle

L’ontologie computationnelle

est spécifiée dans le langage DefOnto (Barry et al. [2001]).

Elle

est obtenue en codant les propositions semi-informelles en propositions formelles (voir fig. 4).

… à l’implication thématique

Au pôle opposé, les titres à implication thématique ouvrent un espace thématique qui

est ensuite déployé dans la section. D’une certaine manière, ces titres condensent le con-

tenu de la section titrée pour délimiter, canaliser les connaissances et inférences qui devront

être mobilisées par le lecteur pour une interprétation de ce qui suit.

4.2. Adhésion et observance

À l’issue des expérimentations, 70 enregistrements de décision ont été exploitables, corres-

pondant à un total de 236 recommandations […]. En ce qui concerne

l’adhésion

, elle a été

meilleure […]. Quant à

l’observance

, les résultats obtenus…

Chacun des éléments du titre est repris dans un introducteur de cadre (Charolles 1997)

qui ponctue la section titrée et permet d’en ordonner le contenu.

Le titre thématique permet aussi de réduire l’univers de discours à un domaine de

connaissance, un point de vue, une situation spatio-temporelle :

4.1 Spécificités du contexte pédagogique

4.1.1. Du point de vue du domaine

[…]

4.1.2. Du point de vue de l’organisation de l’activité

[…]

4.1.3. D’un point de vue technique

Premièrement, l’interface a été conçue pour inciter les étudiants à utiliser certains outils […]

Deuxièmement, l’articulation des outils synchrones et asynchrones ne fait pas l’objet d’un dis-

positif

technique

, mais de l’intervention d’un des étudiants, rôle attribué par émergence.

Enfin, la circulation des données entre les étapes ne fait pas l’objet d’un dispositif

technique

;

elle est gérée par le tuteur, afin que celui-ci soit partie intégrante de l’activité.

Dans ce second exemple, le titre définit littéralement un

point de vue

à partir duquel les

spécificités du contexte pédagogique

sont abordées. Hormis l’adjectif

technique

qui réap-

paraît deux fois, réaffirmation de ce point de vue, ce titre ne donne pas lieu à une anaphore.

La bipolarité que nous venons d’exposer s’est faite jour lors de l’analyse manuelle des

titres, au fur et à mesure de leur annotation. Elle se fonde sur des corrélats formels qui per-

mettent de fixer des prototypes (au sens d’exemplaires typiques) de chaque extrémité.

7

Schedae

,


Corrélats formels

La mise au jour de corrélats de l’implication des titres dans le discours servira de base à

la construction de variables permettant la vérification sur corpus des hypothèses théoriques.

Pour caractériser formellement les titres, rappelons que nous disposons de deux grands

types de traits : des traits liés à la forme du titre, des traits liés à ses modalités de reprise.

Du côté de l’implication référentielle

se positionnent des titres :

– formés d’un bloc unique ;

– de type SN ;

– donnant lieu à une reprise :

• consistant en une répétition strictement identique du titre ou en uneanaphore pronominale, dans tous les cas une reprise unique ;

• immédiate ;• en position sujet.

Par exemple :

3. Notre méthode

Notre méthode

offre un cadre (fig. 1) au sein duquel les choix méthodologiques et techniques

proposés restent ouverts.

2.2.3 SYNTHÈSE DES BOUCHONS

Elle

fera l’objet d’une fiche, mentionnant la situation, au moment de la transmission, sur la zone

d’action du CETE du Sud-Ouest.

Du côté de l’implication thématique

se positionnent des titres :

– de type SP, SV, SN bipartites ou phrases ;

– donnant lieu à une reprise :

• d’une partie ou de l’ensemble des éléments lexicaux du titre, maiséparpillée dans le texte (reprise multiple) ;

• distante (pas la première phrase de la section) ;• en position autre que sujet.

Par exemple :

3.2. Analyse par scénarios et recueil

Concevoir l’ontologie, c’est d’abord identifier les notions du monde que l’on veut représenter.

Ces notions étant accessibles au travers du langage, il s’agit de

recueillir

et d’

analyser

des cor-

pus langagiers en étant guidé par des

scénarios

d’utilisation. Les corpus que nous avons

recueillis et analysés sont : […]

Soulignons qu’entre ces deux pôles qui représentent deux types d’implication tranchés,

la majorité des titres ne présente qu’une partie de ces caractères formels et se range plutôt

sur une position intermédiaire entre implication référentielle et implication thématique.

Nous éprouvons maintenant la validité de ce modèle bipolaire par des moyens statis-

tiques.

Validation statistique du modèle

Le modèle fonctionnel des titres de section tel que nous l’avons présenté est donc un

modèle qui articule divers traits linguistiques formels. Ainsi conçu le modèle présuppose

qu’une fonction donnée n’est pas liée à une variable unique, mais qu’elle dépend de

l’influence conjointe de divers facteurs. Dès lors que l’on envisage de mesurer statistique-

ment une telle influence, c’est une approche multifactorielle qui s’impose. Il s’agit en effet

d’une analyse qui permet de tenir compte non du rôle des variables indépendamment les

unes des autres mais de leur influence conjointe. Ce type d’analyse statistique permet de

8

Schedae

,


confirmer les oppositions posées théoriquement comme pertinentes en validant statisti-

quement ou non la pertinence des traits linguistiques considérés comme déterminants

pour classer les titres et d’interpréter ces classements en termes de fonctions discursives.

Plus précisément, l’analyse statistique sera utilisée ici pour regrouper les titres qui parta-

gent un ensemble de traits communs et pour les opposer à ceux qui partagent d’autres

traits. On pourrait, par exemple, obtenir les regroupements suivants : les titres qui ont la

forme d’un SN pourraient être rassemblés d’un côté, alors que les titres qui ont la forme

d’un SP, d’un SV ou d’un SN bipartite ou encore d’une phrase se trouveraient quant à eux

réunis de leur côté. Ce type de résultat serait un premier pas vers la validation de notre

modèle. Mais voyons maintenant les résultats que nous avons obtenus…

Deux dimensions

Au terme de l’analyse factorielle des correspondances multiples, nous retenons deux

axes factoriels (que nous appelons

dimensions

en utilisant la terminologie de D. Biber) qui

expliquent 30.5 % (de l’inertie totale), soit respectivement 19.89 %, pour le premier axe et

10.61 %, pour le second.

Dans les tableaux ci-dessous (de même que dans les figures qui suivent), nous faisons

apparaître uniquement les traits linguistiques qui contribuent le plus fortement à la défini-

tion des deux dimensions. Pour chaque trait, nous fournissons les coordonnées des varia-

bles - chaque variable est codée en oui/non : autrement dit si un titre a la forme d’un SN,

on codera « oui », si ce n’est pas le cas la même variable sera codée « non ». Les coordon-

nées permettent de positionner les modalités des variables sur les axes - et nous indiquons

leur contribution à la définition statistique de la dimension concernée.

3

Dimension 1 :

dimension formelle

Coordonnées ContributionsCôté positif de l’axe

le titre a la forme d’un bloc syntaxique unique de type SNSN = nonSN = oui

1,54-0,53

37,3

Côté négatif de l’axele titre a une forme bipartite (bipartite)

coordination = noncoordination = oui

ponctuation médiane = nonponctuation médiane = oui

-0,171,73

-0,221,90

13,4

19,1

la reprise est multiplenonoui

-0,350,66

10,6

Tableau 1 : Variables qui ont le plus de poids

3

sur la dimension 1.

Dimension 2 :

dimension cohésive

Coordonnées Contributions

Côté positif de l’axe

la reprise se fait en position sujetnonoui

-0,380,35

11,6

la reprise est lexicalenonoui

-0,301,46

21

Côté négatif de l’axe

la reprise est identiquenonoui

0,39-1,02

14,1

Tableau 2 : Variables qui ont le plus de poids sur la dimension 2.

3. Il s’agit des variables qui contribuent le plus fortement à la définition statistique de l’axe.

9

Schedae

,


On peut interpréter le premier axe comme une

dimension formelle

parce qu’il oppose

les titres en fonction de la forme syntaxique qu’ils revêtent. Les titres placés du côté positif

de l’axe sont les titres qui ont une structure syntaxique qu’on peut analyser comme bipartite

et ceux qui se trouvent réunis du côté négatif sont les titres qui ont la forme d’un syntagme

nominal.

On peut interpréter le second axe comme une

dimension cohésive

parce qu’il oppose

les titres en fonction de la forme sous laquelle s’opère la reprise. Les titres placés du côté

positif de l’axe sont les titres qui sont repris par le biais d’une reprise lexicale et ceux qui se

trouvent du côté négatif de l’axe sont ceux qui voient leur reprise se faire à l’identique ou

par le biais d’un pronom.

Confirmation de l’oppositionentre titres référentiels et titres thématiques

Rappelons que notre approche de la fonction des titres est une approche classificatoire

qui ordonne les titres sur un continuum allant du tout référentiel d’un côté, au tout théma-

tique de l’autre. Plus précisément, il s’agit d’une catégorisation graduelle qui oppose les

titres maximalement référentiels aux titres maximalement thématiques. Évidemment, la plu-

part des titres ne se trouvent pas au centre de ces deux grandes classes, mais ils se situent

à la périphérie. En d’autres termes, tous les titres ne remplissent pas nécessairement tous

les critères que nous avons définis comme pertinents. C’est cette hypothèse que nous per-

met de vérifier l’analyse multifactorielle. Afin de faciliter la lecture des résultats obtenus, nous

proposons ci-après une figure qui nous permet de visualiser l’opposition entre deux grandes

classes de titres que nous avons posées. Nous obtenons cette figure en croisant nos deux

dimensions. Ce croisement dessine un plan factoriel sur lequel nous pouvons situer les varia-

bles qui ont les plus fortes contributions.

Les cercles dessinés sur la figure nous servent à signaler les rapprochements statistiques

qui s’opèrent entre des sous-ensembles d’indices linguistiques que l’on a théoriquement

considérés comme définitoires de l’implication des titres.

D’un côté, en bas et à gauche, se trouvent réunis les titres qui se réalisent syntaxique-

ment sous la forme d’un syntagme nominal (SN) et qui sont repris dans le texte qui suit sous

une forme en tout point identique (reprise identique) et une seule fois dans la section titrée

(reprise unique). Ces trois éléments sont caractéristiques des titres dont l’implication dans

le texte a été qualifiée de référentielle.

De l’autre côté, en haut et à droite, se trouvent réunis les titres qui partagent les pro-

priétés suivantes : ils se réalisent syntaxiquement sous une forme bipartite, ils sont repris sous

la forme de l’une des unités lexicales qui les composent et cela dans diverses phrases de

la section titrée. Ces trois caractéristiques sont au nombre de celles que nous avons décri-

tes comme définitoires des titres dont l’implication notionnelle dans le texte est de type

thématique.

L’interprétation de l’analyse multifactorielle nous conduit à valider, au moins en partie,

notre modèle théorique. Mais en partie seulement et cela pour deux raisons. D’abord,

parce que certains indices linguistiques n’ont pas participé statistiquement à la définition

des deux dimensions que nous avons présentées. Il s’agit des deux variables suivantes : la

variable « localisation de la reprise » et la variable « le titre est un SV » (cf. § Méthodologie,

corpus et tout ça…). Ensuite, parce que d’autres indices vont dans le sens inverse de notre

modèle. C’est le cas notamment de la variable « position sujet de la reprise ». En outre,

contrairement à ce qu’affirme notre modèle, les reprises qui remplissent la fonction sujet

n’entretiennent pas de lien statistique avec les autres indices linguistiques caractéristiques

de l’implication référentielle.

10

Schedae

,


S’agissant des variables « localisation de la reprise » et « position sujet de la reprise »,

on observe cependant une forte corrélation, comme le montre le tableau suivant (X

2

signi-

ficatif à .000) :

Lorsque la reprise s’opère dans la phrase qui suit immédiatement le titre, elle occupe

la position syntaxique de sujet. En revanche, lorsque la reprise est localisée ailleurs dans la

section, elle assumera préférentiellement d’autres fonctions syntaxiques. Ce résultat nous

invite à construire une nouvelle variable combinant la fonction et la localisation afin de faire

entrer dans l’analyse les deux variables conjointes. Nous espérons alors mieux faire appa-

raître le lien entre la fonction syntaxique de sujet et la fonction référentielle du titre.

Titres référentiels ou thématiques :des préférences selon les genres textuels

Les résultats de l’analyse multifactorielle permettent de montrer que les titres n’assu-

ment pas les mêmes fonctions discursives dans tous les textes. Pour s’en convaincre, il suffit

d’observer la place qu’occupent les sous-corpus sur les deux dimensions dégagées. Mais

auparavant une précision s’impose. Pour bien comprendre ce qui est en jeu ici, il faut se

souvenir que les calculs statistiques ont été réalisés à partir d’informations qui décrivent les

titres eux-mêmes (forme, type de reprise, etc.). À ce stade, en revanche, il s’agit uniquement

de projeter les sous-corpus d’où sont extraits les titres analysés sur les axes qui ont été cal-

culés. En d’autres termes, les sous-corpus ne participent pas à l’analyse statistique, il s’agit

d’une information disponible (on connaît pour chaque titre le corpus d’où il est extrait) que

l’on projette sur les axes pour voir si les titres tirés des mêmes sous-corpus se rassemblent

sur l’espace à deux dimensions défini par l’analyse statistique précédente. Ce sont préci-

sément ces regroupements que l’on fait apparaître sur la figure 3 (il s’agit ici de représenter

la place qu’occupe la variable supplémentaire « sous-corpus » dans le plan factoriel obtenu

par le croisement des deux dimensions). Pour interpréter cette figure, il faut observer suc-

cessivement les deux axes :

Figure 2 : Validation de l’hypothèse d’une opposition entre des titres référentiels et des titres thématiques.

Première phrase Ailleurs

nbre d’occ % nbre d’occ %

Non sujet

246 45 77

65

323

Sujet 306

55

41 35 347

Total 552 100 % 118 100 %

Tableau 3 : La fonction syntaxique de la reprise dépend sa localisation

.

reprise partielle

position sujet reprise lexicale

reprise multiple

Titre bipartite

reprise identique

reprise unique

Bloc unique : SN

titres référentiels

titres thématiques

Dimension 1 : formelle

Dimension 2 : cohésion

11

Schedae, 2006, prépublication n°1, (fascicule n°1, p. 1-12).

– sur le premier axe (dimension 1), du côté positif, on observe que se trouvent réunis les

titres des articles des domaines géopolitique et ingénierie des connaissances alors

que les titres extraits des textes professionnels sont regroupés sur le côté négatif de

l’axe ;

– sur le second axe (dimension 2), on observe les mêmes regroupements : d’un côté, les

titres tirés de l’ensemble des articles scientifiques et de l’autre les titres extraits des

textes professionnels.

L’observation de la place qu’occupent les corpus sur les deux dimensions nous rensei-

gne sur les relations entre notre classement fonctionnel des titres et le genre des textes et

nous conduisent à la conclusion suivante : l’implication des titres dans le discours fournit un

indice du type de texte.

Conclusion

En appréhendant les documents écrits sous leur aspect matériel, on est conduit à pren-

dre en compte des éléments structurants qui s’imposent visuellement tels que les sections,

paragraphes et leurs titres. Nous nous sommes intéressées au rôle joué par ces derniers dans

la construction de la sémantique du texte et avons dégagé deux fonctions polaires par rap-

port, d’un côté à la gestion des référents, de l’autre à la thématique. Se construit ainsi de

l’une à l’autre un continuum sur lequel se placent les divers titres du corpus, en fonction des

valeurs des différents traits formels utilisés pour les caractériser.

La description précise des indices linguistiques de l’implication des titres dans le dis-

cours suivie de leur codage dans un vaste corpus permet de quantifier les indices considérés

comme théoriquement pertinents. Cette étape de validation empirique d’un modèle théo-

rique a été franchie avec un relatif succès, dans cette étude, puisque les corrélats formels

théoriquement pertinents l’ont été aussi statistiquement. Le travail de description sur la fonc-

tion syntaxique de la reprise doit néanmoins être poursuivi afin de mieux expliquer les résul-

tats contradictoires obtenus. Par ailleurs, l’ensemble des titres ne donnant pas lieu à anaphore

doit être caractérisé par les autres traits annotés. L’une de nos hypothèses actuelles est qu’ils

s’apparentent à des introducteurs de cadre, elle doit être maintenant explorée.

Le second enseignement que l’on peut tirer du travail présenté ici concerne les possi-

bilités de caractérisation du contenu textuel via les titres de section. L’analyse portant sur un

Figure 3 : Projection des sous-corpus sur les axes dégagés par l’analyse multifonctionnelle.

reprise partielle

position sujet reprise lexicale

reprise multiple

Titre bipartite

reprise identique

reprise unique

Bloc unique : SN

titres référentiels

titres thématiquesArticles géopolitique / ingénierie

Textes professionnels

12

Schedae, 2006, prépublication n°1, (fascicule n°1, p. 1-12).

corpus diversifié, on peut en effet affirmer qu’il existe des affinités entre certains types de

titres et certains genres ou registres de discours. Ce résultat ouvre sur une application pos-

sible de ce travail vers le profilage automatique de textes (Habert et al. 2000). Si ce résultat

se confirme sur un plus grand nombre de corpus, on peut imaginer faire entrer les caracté-

ristiques des titres parmi les différents traits de surface qui seraient utilisés pour une caté-

gorisation automatique des textes.

Dans le même genre de perspectives, plusieurs applications concrètes sont envisagea-

bles. Pour une navigation intradocumentaire sélective, le typage des titres s’avérerait fruc-

tueux, ce serait une information supplémentaire que le lecteur pourrait utiliser pour décider

de lire ou non telle ou telle portion de texte. Pour des tâches automatiques telles que la

recherche d’information, il semble de plus en plus nécessaire de cesser de considérer les

textes comme des « sacs de phrases » et de bâtir des systèmes qui prennent en compte leur

structuration. Les applications impliquant un accès au contenu textuel ont tout à gagner d’une

meilleure compréhension du fonctionnement de ces éléments de structuration.

BibliographieBIBER D. (2003), « Variation among University Spoken and Written Registers : a new multi-dimensional

analysis », in Corpus analysis. Language structure and language use, P. Leistyna & C. F. Meyer (éds),

Amsterdam – New York, Rodopi, p. 47-67.

CHAROLLES M. (1997), « L’encadrement du discours : univers, champs, domaines et espaces», Cahier de

Recherche Linguistique, 6, p. 1-73.

CHAROLLES M. (2002), « Organisation des discours et segmentation des écrits», in Actes de la rencontre

Inscription Spatiale du Langage : structures et processus, Toulouse, p. 31-39.

CORNISH F. (2003), « The roles of (written) text and anaphor-type distribution in the construction of

discourse », Text, 23, 1, p. 1-26.

HABERT B., ILLOUZ G., LAFON P., FLEURY, S., FOLCH H., HEIDEN S. & PRÉVOST S. (2000), « Profilage de textes :

cadre de travail et expérience », in JADT (Journées Internationales d’Analyse Statistique des Données

Textuelles), M. Rajman (éd.), Lausanne.

HALLIDAY M.A.K. (1985), An introduction to Functional Grammar, London, Edward Arnold.

HO-DAC M., JACQUES M.-P. & REBEYROLLE J. (2004), « Sur la fonction discursive des titres », in L’unité

texte, S. Porhiel & D. Klingler (éds.), Pleyben, Perspectives, p. 125-152.

LUC C., & VIRBEL J. (2001), « Le modèle d’architecture textuelle Fondements et expérimentation »,

Verbum, 23, 1, p. 103-123.

POWER R., SCOTT D. & BOUYAD-AGAH N. (2003), « Document structure », Computational Linguistics, 29, 2,

p. 211-260.