100
La linguistique textuelle à l’orée du numérique Jean-Marie Viprey Maison des Sciences de l’Homme de Franche- Comté UMR Bases Corpus Langages CNRS-Nice [email protected]

La linguistique textuelle à lorée du numérique Jean-Marie Viprey Maison des Sciences de lHomme de Franche-Comté UMR Bases Corpus Langages CNRS-Nice [email protected]

Embed Size (px)

Citation preview

Page 1: La linguistique textuelle à lorée du numérique Jean-Marie Viprey Maison des Sciences de lHomme de Franche-Comté UMR Bases Corpus Langages CNRS-Nice jean-marie.viprey@univ-fcomte.fr

La linguistique textuelle à l’orée du numérique

Jean-Marie Viprey

Maison des Sciences de l’Homme de Franche-Comté

UMR Bases Corpus Langages CNRS-Nice

[email protected]

Page 2: La linguistique textuelle à lorée du numérique Jean-Marie Viprey Maison des Sciences de lHomme de Franche-Comté UMR Bases Corpus Langages CNRS-Nice jean-marie.viprey@univ-fcomte.fr

La linguistique textuelle à l’orée du numérique Jean-Marie Viprey

1996 Thèse de IIIème cycle : Dynamique du vocabulaire des Fleurs du malDir. : Jean Peytard

Jury : Jean-Michel Adam, Etienne Brunet, Claude Condé, Pierre Malandain, Jean-Philippe Massonie

2002 : HDR Jury : Jean-Michel Adam, Claude Blum, Claude Condé, Georges Molinié, André Salem, Max Silberztein

•Linguistique informatique•Linguistique textuelle

•Philologie•Statistique

•Statistique textuelle•Stylistique littéraire

_____________________________________________________________

Dir.Adjoint de l’Equipe d’Accueil 3817 Archives, Textes, Sciences des Textes (ATST)Membre associé de l’EA 2181 Laboratoire de Sémio-linguistique, Didactique, Informatique (LASELDI)

Coordonnateur du pôle Archive, Bases, Corpus de la MSHE de Franche-Comté (USR CNRS)En délégation (2007-8 -9?) au CNRS, UMR Bases Corpus Langages – Nice.

Page 3: La linguistique textuelle à lorée du numérique Jean-Marie Viprey Maison des Sciences de lHomme de Franche-Comté UMR Bases Corpus Langages CNRS-Nice jean-marie.viprey@univ-fcomte.fr

Lausanne, 2004 :

Sciences du Texte et Analyse de Discours

Adam J.-M. & Heidmann U. (2005). Sciences du texte et analyse de discours. Slatkine

Page 4: La linguistique textuelle à lorée du numérique Jean-Marie Viprey Maison des Sciences de lHomme de Franche-Comté UMR Bases Corpus Langages CNRS-Nice jean-marie.viprey@univ-fcomte.fr

J.-M. Adam, 2005 :

Introduction à l’ Analyse Textuelle du Discours

ATD

Adam J.-M. (1997). Linguistique textuelle : des genres de discours aux textes. Nathan

Adam J.-M. (2005). La linguistique textuelle : introduction à l’analyse textuelle des discours. Colin

Page 5: La linguistique textuelle à lorée du numérique Jean-Marie Viprey Maison des Sciences de lHomme de Franche-Comté UMR Bases Corpus Langages CNRS-Nice jean-marie.viprey@univ-fcomte.fr

Redéfinir le texte ?

Le texte [est-il] le véritable objet de la linguistique [?]

(Rastier Sens et textualité – 1989)

Rastier François 1989 : Sens et textualité, Paris, Hachette

Page 6: La linguistique textuelle à lorée du numérique Jean-Marie Viprey Maison des Sciences de lHomme de Franche-Comté UMR Bases Corpus Langages CNRS-Nice jean-marie.viprey@univ-fcomte.fr

Redéfinir le texte ?

Si oui, la linguistique textuelle n’aurait guère lieu d’être. La linguistique serait constamment textuelle…

Le texte est-il l’objet de la linguistique textuelle ?

Page 7: La linguistique textuelle à lorée du numérique Jean-Marie Viprey Maison des Sciences de lHomme de Franche-Comté UMR Bases Corpus Langages CNRS-Nice jean-marie.viprey@univ-fcomte.fr

Redéfinir le texte ?

L’objet de la linguistique textuelle, telle qu’elle s’est développée historiquement, c’est l’ énoncé suivi.

cf Halliday & Hasan, Weinrich, le premier Rastier, Adam 1999.

Le principal point d’appui de la LT historique, c’est la critique de la linguistique de la phrase

cf Benveniste 1974.

Benveniste E. (1974) Problèmes de linguistique générale. Gallimard.

Page 8: La linguistique textuelle à lorée du numérique Jean-Marie Viprey Maison des Sciences de lHomme de Franche-Comté UMR Bases Corpus Langages CNRS-Nice jean-marie.viprey@univ-fcomte.fr

Redéfinir le texte ?

Malgré l’autorité de la tradition grammaticale, tout engage la linguistique à prendre les textes pour objet : elle affronte alors des phénomènes

d’une tout autre échelle, en vraie grandeur pourrait-on dire.

Rastier (2001 : 13)(souligné par nous)

Rastier François 2001 : Arts et sciences du texte, Paris, Seuil

Page 9: La linguistique textuelle à lorée du numérique Jean-Marie Viprey Maison des Sciences de lHomme de Franche-Comté UMR Bases Corpus Langages CNRS-Nice jean-marie.viprey@univ-fcomte.fr

Redéfinir le texte ?

[…] un texte est une suite linguistique empirique attestée, produite dans une pratique sociale

déterminée, et fixée sur un support quelconque. Rastier (2001 : 21)

Objectivité, écologie, empirie

Page 10: La linguistique textuelle à lorée du numérique Jean-Marie Viprey Maison des Sciences de lHomme de Franche-Comté UMR Bases Corpus Langages CNRS-Nice jean-marie.viprey@univ-fcomte.fr

Redéfinir le texte ?

Un texte est-il un « être » ?Avons-nous intérêt à lui donner une

définition « ontique » ?Par qui/quoi est-il « attesté » ?

Page 11: La linguistique textuelle à lorée du numérique Jean-Marie Viprey Maison des Sciences de lHomme de Franche-Comté UMR Bases Corpus Langages CNRS-Nice jean-marie.viprey@univ-fcomte.fr

Redéfinir le texte ?

Textuel(le)(s)

Textualité(s)

Dimension(s) textuelle(s)

Configuration(s) textuelle(s)

Page 12: La linguistique textuelle à lorée du numérique Jean-Marie Viprey Maison des Sciences de lHomme de Franche-Comté UMR Bases Corpus Langages CNRS-Nice jean-marie.viprey@univ-fcomte.fr

Redéfinir le texte ?

Déficit philologique

de l’Analyse du Discours

>>>>

Analyse Textuelle du Discours

Page 13: La linguistique textuelle à lorée du numérique Jean-Marie Viprey Maison des Sciences de lHomme de Franche-Comté UMR Bases Corpus Langages CNRS-Nice jean-marie.viprey@univ-fcomte.fr

Redéfinir le texte ?

Le texte serait un DISPOSITIF construit pour être une voie d’accès au discours qu’il matérialise, non pas a priori ou par « production », mais par construction.

Page 14: La linguistique textuelle à lorée du numérique Jean-Marie Viprey Maison des Sciences de lHomme de Franche-Comté UMR Bases Corpus Langages CNRS-Nice jean-marie.viprey@univ-fcomte.fr

Redéfinir le texte ?

Ainsi, il n’est pas « produit » par le discours. Il est construit en vue de

permettre un accès second à l’activité discursive (accès répétable et/ou critique,

(re)mise en discours, ordinaire ou savante)

Page 15: La linguistique textuelle à lorée du numérique Jean-Marie Viprey Maison des Sciences de lHomme de Franche-Comté UMR Bases Corpus Langages CNRS-Nice jean-marie.viprey@univ-fcomte.fr

Redéfinir le texte ?

Adam à partir de 1999 et surtout de 2004 modifie le positionnement de la LT.

La phrase n’est pas un constituant du texte.•Certains constituants ne sont pas des phrases, voire pas des organisations verbales. •Surtout : il y a (au moins) un palier intermédiaire.

Page 16: La linguistique textuelle à lorée du numérique Jean-Marie Viprey Maison des Sciences de lHomme de Franche-Comté UMR Bases Corpus Langages CNRS-Nice jean-marie.viprey@univ-fcomte.fr

Redéfinir le texte ?

Texte (étymologiquement parlant) :

assemblage, couture, configuration…

Page 17: La linguistique textuelle à lorée du numérique Jean-Marie Viprey Maison des Sciences de lHomme de Franche-Comté UMR Bases Corpus Langages CNRS-Nice jean-marie.viprey@univ-fcomte.fr

Redéfinir le texte ?

Texte (étymologiquement parlant) :

assemblage, couture, configuration…

de phrases ?

Page 18: La linguistique textuelle à lorée du numérique Jean-Marie Viprey Maison des Sciences de lHomme de Franche-Comté UMR Bases Corpus Langages CNRS-Nice jean-marie.viprey@univ-fcomte.fr

Redéfinir le texte ?

Texte (étymologiquement parlant) :

assemblage, couture, configuration…

de phrases ?

d’énoncés (plurisémiotiques : miniatures, tableaux… )

Page 19: La linguistique textuelle à lorée du numérique Jean-Marie Viprey Maison des Sciences de lHomme de Franche-Comté UMR Bases Corpus Langages CNRS-Nice jean-marie.viprey@univ-fcomte.fr

Redéfinir le texte ?

Texte (étymologiquement parlant) :

assemblage, couture, configuration…

d’énoncés eux-mêmes assemblés dans des documents

(plurisémiotiques : miniatures, tableaux, touches sonores des livres pour enfants… notes de bas de pages, liens intertextuels, listes,

figures…)

Page 20: La linguistique textuelle à lorée du numérique Jean-Marie Viprey Maison des Sciences de lHomme de Franche-Comté UMR Bases Corpus Langages CNRS-Nice jean-marie.viprey@univ-fcomte.fr

Redéfinir le texte ?

Ainsi la séquence pourrait être considérée comme un cas particulier, un type d’énoncé

(partie logico-rhétorique)

assemblé selon un type de modalité (séquentielle).

Page 21: La linguistique textuelle à lorée du numérique Jean-Marie Viprey Maison des Sciences de lHomme de Franche-Comté UMR Bases Corpus Langages CNRS-Nice jean-marie.viprey@univ-fcomte.fr

Redéfinir le texte ?

Question fréquemment posée :(dans l’optique lexicométrique, notamment)

« Le titre fait-il partie du texte ? Et les notes de bas de page ?... »

Page 22: La linguistique textuelle à lorée du numérique Jean-Marie Viprey Maison des Sciences de lHomme de Franche-Comté UMR Bases Corpus Langages CNRS-Nice jean-marie.viprey@univ-fcomte.fr

Redéfinir le texte ?

Question fréquemment posée :(dans l’optique lexicométrique, notamment)

« Le titre fait-il partie du texte ? Et les notes de bas de page ?...

- Oui, et du document aussi. Mais ce sont des énoncés distincts. »

(comme peuvent l’être, selon les angles d’approche, les répliques des personnages en discours direct, mais aussi des parties

successives que toute analyse est susceptible de distinguer)

(et nous ne sommes plus ici dans une optique strictement lexicométrique !)

Page 23: La linguistique textuelle à lorée du numérique Jean-Marie Viprey Maison des Sciences de lHomme de Franche-Comté UMR Bases Corpus Langages CNRS-Nice jean-marie.viprey@univ-fcomte.fr

Redéfinir le texte ?

Les variantes…En édition scientifique :

indication/indexation, dans l’appareil critique,

de lieux où deux documents divergent

variation « écrasée », décontextualisée(cf Adam 2005, Paveau-Sarfaty 2006)

Page 24: La linguistique textuelle à lorée du numérique Jean-Marie Viprey Maison des Sciences de lHomme de Franche-Comté UMR Bases Corpus Langages CNRS-Nice jean-marie.viprey@univ-fcomte.fr

Redéfinir le texte ?

Les variantes…En édition scientifique :

indication/indexation, dans l’appareil critique, de lieux où deux documents divergent

variation « écrasée », décontextualisée

« en droit » :Mise en parallèle de N documents du texte

considéré, et observation de cette variation en multi-contexte

Page 25: La linguistique textuelle à lorée du numérique Jean-Marie Viprey Maison des Sciences de lHomme de Franche-Comté UMR Bases Corpus Langages CNRS-Nice jean-marie.viprey@univ-fcomte.fr

Redéfinir le texte ?

Même chose à propos de tous les aspects de cette variation ramifiée qu’est le texte :

réécritures, intertexte, traduction bien sûr… mais aussi…

Page 26: La linguistique textuelle à lorée du numérique Jean-Marie Viprey Maison des Sciences de lHomme de Franche-Comté UMR Bases Corpus Langages CNRS-Nice jean-marie.viprey@univ-fcomte.fr

Redéfinir le texte ?

Même chose à propos de tous les aspects de cette variation ramifiée qu’est le texte :

réécritures, intertexte, traduction bien sûr… mais aussi…

transcription de l’oral, productions colingues…sans oublier…

Page 27: La linguistique textuelle à lorée du numérique Jean-Marie Viprey Maison des Sciences de lHomme de Franche-Comté UMR Bases Corpus Langages CNRS-Nice jean-marie.viprey@univ-fcomte.fr

Redéfinir le texte ?

Même chose à propos de tous les aspects de cette variation ramifiée qu’est le texte :

réécritures, intertexte, traduction bien sûr… mais aussi…

transcription de l’oral, productions colingues…sans oublier…

feuilleton, séries, rubriques de presse, performances théâtrales, tests de lecture

Page 28: La linguistique textuelle à lorée du numérique Jean-Marie Viprey Maison des Sciences de lHomme de Franche-Comté UMR Bases Corpus Langages CNRS-Nice jean-marie.viprey@univ-fcomte.fr

Redéfinir le texte ?

Conclusion ?

Un texte serait une constellation de documents eux-mêmes constitués d’

énoncés agencés.

Constellation ouverte.

Page 29: La linguistique textuelle à lorée du numérique Jean-Marie Viprey Maison des Sciences de lHomme de Franche-Comté UMR Bases Corpus Langages CNRS-Nice jean-marie.viprey@univ-fcomte.fr

Redéfinir le texte ?

Foucault (Dits et écrits – 1994 : 708)« J’appellerai archive, non pas la totalité des textes qui ont été conservés par une civilisation […] mais le jeu des règles qui déterminent dans une culture l’apparition et la disparition des énoncés, leur rémanence et leur effacement, leur existence paradoxale d’événements et de choses »

Cité par Paveau & Serfati (2005 : 199)

Page 30: La linguistique textuelle à lorée du numérique Jean-Marie Viprey Maison des Sciences de lHomme de Franche-Comté UMR Bases Corpus Langages CNRS-Nice jean-marie.viprey@univ-fcomte.fr

Redéfinir le texte ? Foucault (Dits et écrits – 1994 : 708)

« J’appellerai archive, non pas la totalité des textes qui ont été conservés par une civilisation […] mais le jeu des règles qui déterminent dans une culture l’apparition et la disparition des énoncés, leur rémanence et leur effacement, leur existence paradoxale d’événements et de choses »

Cité par Paveau & Serfati (2005 : 199)

Où l’on peut lire (sans solliciter à l’excès) que le texte ne vaut (en AD) qu’en tant qu’il

(recueille) sertit l’énoncé (authentique objet de la quête de sens et d’histoire),

configure et archive ses rapports avec l’ensemble des autres énoncés.

Paveau M.-A., Sarfati G.E. 2003 : Les grandes théories de la linguistique, Paris, Colin

Page 31: La linguistique textuelle à lorée du numérique Jean-Marie Viprey Maison des Sciences de lHomme de Franche-Comté UMR Bases Corpus Langages CNRS-Nice jean-marie.viprey@univ-fcomte.fr

Redéfinir le texte ?

TEXTE / CORPUS ?

Page 32: La linguistique textuelle à lorée du numérique Jean-Marie Viprey Maison des Sciences de lHomme de Franche-Comté UMR Bases Corpus Langages CNRS-Nice jean-marie.viprey@univ-fcomte.fr

Redéfinir le texte ?

TEXTE / CORPUS ?

TEXTE / BASE / CORPUS !

Page 33: La linguistique textuelle à lorée du numérique Jean-Marie Viprey Maison des Sciences de lHomme de Franche-Comté UMR Bases Corpus Langages CNRS-Nice jean-marie.viprey@univ-fcomte.fr

Redéfinir le texte ? TEXTE / CORPUS ?

TEXTE / BASE / CORPUS !

Habert, Nazarenko, Salem ( 1997 : 11) :

Nous employons le mot corpus dans une acception restreinte empruntée à J.Sinclair (1996 : 4) : « un corpus

est une collection de données langagières qui sont sélectionnées et organisées selon des critères

linguistiques explicites pour servir d’ échantillon du langage ». […] A cette aune, nombre de ressources

textuelles perdent cette dénomination. Il s’agit souvent de collections ou de rassemblements de textes

électroniques plutôt que de corpus à proprement parler.

Habert Benoît, Nazarenko Adeline, Salem André 1997 : Les linguistiques de corpus, Paris, Colin.

Page 34: La linguistique textuelle à lorée du numérique Jean-Marie Viprey Maison des Sciences de lHomme de Franche-Comté UMR Bases Corpus Langages CNRS-Nice jean-marie.viprey@univ-fcomte.fr

Redéfinir le texte ? TEXTE / CORPUS ?

TEXTE / BASE / CORPUS !

Habert, Nazarenko, Salem (Les linguistiques de corpus. 1997 : 11) :

Nous employons le mot corpus dans une acception restreinte empruntée à J.Sinclair (1996 : 4) : « un corpus

est une collection de données langagières qui sont sélectionnées et organisées selon des critères

linguistiques explicites pour servir d’ échantillon du langage ». […] A cette aune, nombre de ressources

textuelles perdent cette dénomination. Il s’agit souvent de collections ou de rassemblements de textes

électroniques plutôt que de corpus à proprement parler.

Page 35: La linguistique textuelle à lorée du numérique Jean-Marie Viprey Maison des Sciences de lHomme de Franche-Comté UMR Bases Corpus Langages CNRS-Nice jean-marie.viprey@univ-fcomte.fr

Redéfinir le texte ?

Le texte est donc un élément constitutif d’archive, matérialisable

dans une base sous forme de documents reliés abstraitement et/ou

matériellement. Son principe constitutif est d’ordre

culturel (mythe, loi, rite, histoire, biographie, didactique, etc…)

Page 36: La linguistique textuelle à lorée du numérique Jean-Marie Viprey Maison des Sciences de lHomme de Franche-Comté UMR Bases Corpus Langages CNRS-Nice jean-marie.viprey@univ-fcomte.fr

Redéfinir le texte ?

Le corpus est un prélèvement d’archive, constitué d’énoncés.

Son principe constitutif est d’ordre hypothético-déductif ou mieux dit réflexif

(Guilhaumou, Mayaffre)

Mayaffre D. (2002) « Les corpus réflexifs : entre architextualité et hypertextualité » in Corpus n°1.

Guilhaumou J. (2002) « Le corpus en analyse de discours. Perspective historique » ibid.

Revue Corpus en ligne : http://corpus.revues.org/sommaire49.html

Page 37: La linguistique textuelle à lorée du numérique Jean-Marie Viprey Maison des Sciences de lHomme de Franche-Comté UMR Bases Corpus Langages CNRS-Nice jean-marie.viprey@univ-fcomte.fr

Redéfinir le texte ?

La textualité ?

Page 38: La linguistique textuelle à lorée du numérique Jean-Marie Viprey Maison des Sciences de lHomme de Franche-Comté UMR Bases Corpus Langages CNRS-Nice jean-marie.viprey@univ-fcomte.fr

Redéfinir le texte ?

La textualité ?

L’ensemble des aspects de « cet » agencement d’énoncés en un texte,

qui en font une unité cohésive et cohérente

= texture (H & H) ?

Halliday m.a.k., Hasan Ruqaiya 1976 : Cohesion in English, London, Longman

Page 39: La linguistique textuelle à lorée du numérique Jean-Marie Viprey Maison des Sciences de lHomme de Franche-Comté UMR Bases Corpus Langages CNRS-Nice jean-marie.viprey@univ-fcomte.fr

Redéfinir le texte ?

La textualité ?L’ensemble des aspects de « cet » agencement d’énoncés en un texte, qui

en font une unité cohésive et cohérente

= texture (H & H) ?

Oui, à condition d’en faire une lecture critique :

*Un texte n’est pas « directement » constitué de phrases ([…] If a passage of English containing more than one

sentence is perceived as a text […] C.i.E. : 2)souligné par nous

Page 40: La linguistique textuelle à lorée du numérique Jean-Marie Viprey Maison des Sciences de lHomme de Franche-Comté UMR Bases Corpus Langages CNRS-Nice jean-marie.viprey@univ-fcomte.fr

Redéfinir le texte ?

La textualité ?L’ensemble des aspects de « cet » agencement d’énoncés en un texte, qui

en font une unité cohésive et cohérente

= texture (H & H) ?

Oui, à condition d’en faire une lecture critique :*Un texte n’est pas « directement » constitué de phrases ([…] If a passage of English containing

more than one sentence is perceived as a text […] C.i.E. : 2)

*La texture ne relève pas intrinsèquement des ressources propres à une langue particulière

( What we are investigating […] are the resources that English has for creating texture. ibid.)

souligné par nous

Page 41: La linguistique textuelle à lorée du numérique Jean-Marie Viprey Maison des Sciences de lHomme de Franche-Comté UMR Bases Corpus Langages CNRS-Nice jean-marie.viprey@univ-fcomte.fr

Redéfinir le texte ?

Excursus :

Langue et discours,

langue(s) et texte(s)

R.Balibar (1983, 85, 93)

Page 42: La linguistique textuelle à lorée du numérique Jean-Marie Viprey Maison des Sciences de lHomme de Franche-Comté UMR Bases Corpus Langages CNRS-Nice jean-marie.viprey@univ-fcomte.fr

Redéfinir le texte ?

La textualité ?Les rapports entre les divers documents du texte relève

en droit de la textualité, tout autant que les rapports entre énoncés dans l’hypothèse d’un texte « simple » (à

un document).

Page 43: La linguistique textuelle à lorée du numérique Jean-Marie Viprey Maison des Sciences de lHomme de Franche-Comté UMR Bases Corpus Langages CNRS-Nice jean-marie.viprey@univ-fcomte.fr

Redéfinir le texte ?

La textualité ?

Le texte ainsi défini est un champ.

Cela règle son rapport (multilatéral) à ses unités de toute échelle et les rapports de

ces unités entre elles.

Page 44: La linguistique textuelle à lorée du numérique Jean-Marie Viprey Maison des Sciences de lHomme de Franche-Comté UMR Bases Corpus Langages CNRS-Nice jean-marie.viprey@univ-fcomte.fr

Redéfinir le texte ?

La textualité ?

Le texte ainsi défini est un champ.

Cela règle son rapport (multilatéral) à ses unités de toute échelle et les rapports de ces unités entre elles.

C’est ce que, relisant Rastier (1989) nous avons projeté d’appliquer aux unités de très petite dimension, mots (Viprey 1997) et

« phonèmes » (Viprey 1998) notamment.

Page 45: La linguistique textuelle à lorée du numérique Jean-Marie Viprey Maison des Sciences de lHomme de Franche-Comté UMR Bases Corpus Langages CNRS-Nice jean-marie.viprey@univ-fcomte.fr

Redéfinir le texte ?

La textualité ?

Le texte ainsi défini est un champ.Cela règle son rapport (multilatéral) à ses unités de toute échelle et les rapports de ces unités

entre elles.

Un mot (une occurrence) interagit certes avec l’énoncé (perspective distributionnelle « classique », Harris).

Mais l’interaction productrice de sens s’exerce et s’analyse au niveau du texte, comme « masse » et

comme « configuration ».

Page 46: La linguistique textuelle à lorée du numérique Jean-Marie Viprey Maison des Sciences de lHomme de Franche-Comté UMR Bases Corpus Langages CNRS-Nice jean-marie.viprey@univ-fcomte.fr

Redéfinir le texte ?

La textualité ?

Le texte ainsi défini est un champ.Cela règle son rapport (multilatéral) à ses unités de toute échelle et les rapports de ces unités

entre elles.

Un mot (une occurrence) interagit certes avec l’énoncé (perspective distributionnelle « classique », Harris).

Mais l’interaction productrice de sens s’exerce et s’analyse au niveau du texte, comme « masse » et comme « configuration ».

C’est ce que nous avions cru pouvoir nommer texture, négligeant l’emploi H&H et l’effet de traduction ; pour H&H texture désigne

l’ensemble des effets de champ :

The concept of TEXTURE is entirely appropriate to express the property of ‘being a text’ (C.i.E. : 2)

Page 47: La linguistique textuelle à lorée du numérique Jean-Marie Viprey Maison des Sciences de lHomme de Franche-Comté UMR Bases Corpus Langages CNRS-Nice jean-marie.viprey@univ-fcomte.fr

Redéfinir le texte ?

La textualité ?

Le texte ainsi défini est un champ.Cela règle son rapport (multilatéral) à ses unités de toute échelle et les rapports de ces unités

entre elles.

Un mot (une occurrence) interagit certes avec l’énoncé (perspective distributionnelle « classique », Harris).

Mais l’interaction productrice de sens s’exerce et s’analyse au niveau du texte, comme « masse » et comme « configuration ».

C’est ce que nous avions cru pouvoir nommer texture, négligeant l’emploi H&H et l’effet de traduction ; pour H&H texture désigne l’ensemble des effets de champ :

The concept of TEXTURE is entirely appropriate to express the property of ‘being a text’ (C.i.E. : 2)

macro/méso/micro –textualité ?

Page 48: La linguistique textuelle à lorée du numérique Jean-Marie Viprey Maison des Sciences de lHomme de Franche-Comté UMR Bases Corpus Langages CNRS-Nice jean-marie.viprey@univ-fcomte.fr

Redéfinir le texte ?

Qu’est-ce qu’un texte à l’ère numérique ?

ou bien :

Que nous dit l’ère numérique du statut du texte ?   

Page 49: La linguistique textuelle à lorée du numérique Jean-Marie Viprey Maison des Sciences de lHomme de Franche-Comté UMR Bases Corpus Langages CNRS-Nice jean-marie.viprey@univ-fcomte.fr

Brève histoire (très orientée !) de l’informatisation des « textes »

[EXCURSUS]A toute « origine », la discrétisation graphique.

cf Goody 1997 et 2007

Page 50: La linguistique textuelle à lorée du numérique Jean-Marie Viprey Maison des Sciences de lHomme de Franche-Comté UMR Bases Corpus Langages CNRS-Nice jean-marie.viprey@univ-fcomte.fr

Brève histoire (très orientée !) de l’informatisation des « textes »

Aux « origines » de l’informatique « moderne » : des problèmes d’espace…

Codage sur un octet (8 bits) :

pas de distinction majuscules/minuscules, caractères accentués/non accentués

perte de la disposition spatiale et de la mise en forme des caractères

Page 51: La linguistique textuelle à lorée du numérique Jean-Marie Viprey Maison des Sciences de lHomme de Franche-Comté UMR Bases Corpus Langages CNRS-Nice jean-marie.viprey@univ-fcomte.fr

Brève histoire (très orientée !) de l’informatisation des « textes »

Mais aussi (surtout ?) :

élimination de tout élément de complexité textuelle :« Choix » de l’édition

Délimitation texte / « péritexte » (élimination de ce dernier)

Valorisation de la seule surface graphique

De ce point de vue, « TLF » et « Saint-Cloud » - par exemple –

se rejoignent

(et l’ensemble des entreprises de l’époque)

Page 52: La linguistique textuelle à lorée du numérique Jean-Marie Viprey Maison des Sciences de lHomme de Franche-Comté UMR Bases Corpus Langages CNRS-Nice jean-marie.viprey@univ-fcomte.fr

Brève histoire (très orientée !) de l’informatisation des « textes »

Facteurs d’évolution :[sur fond de l’évolution technologique]

* La demande liée au traitement de texte :

Mise en forme et interopérabilité > RTF

* La demande liée au Web et à l’hypertexte :

Navigabilité (viabilisation) > HTML, XML.

Page 53: La linguistique textuelle à lorée du numérique Jean-Marie Viprey Maison des Sciences de lHomme de Franche-Comté UMR Bases Corpus Langages CNRS-Nice jean-marie.viprey@univ-fcomte.fr

Brève histoire (très orientée !) de l’informatisation des « textes »

Facteurs d’évolution :[sur fond de l’évolution technologique]

* La demande liée au traitement de texte :Mise en forme et interopérabilité > RTF

* La demande liée au Web et à l’hypertexte :Navigabilité (viabilisation) > HTML, XML.

Paradoxe : ces évolutions atteignent TARDIVEMENT le domaine encore inconstitué et innommé où vont se

rencontrer les sciences et techniques du texte…

Page 54: La linguistique textuelle à lorée du numérique Jean-Marie Viprey Maison des Sciences de lHomme de Franche-Comté UMR Bases Corpus Langages CNRS-Nice jean-marie.viprey@univ-fcomte.fr

Brève histoire (très orientée !) de l’informatisation des « textes »

Facteurs d’évolution :[sur fond de l’évolution technologique]

* La demande liée au traitement de texte :Mise en forme et interopérabilité > RTF

* La demande liée au Web et à l’hypertexte :Navigabilité (viabilisation) > HTML, XML.

Paradoxe : ces évolutions atteignent TARDIVEMENT le domaine encore inconstitué et innommé où vont se rencontrer les sciences et techniques du texte…

Exemple : les immenses ressources des grandes bibliothèques publiques sont

longtemps numérisées et mises en ligne en mode image (PDF) à l’exclusion du

mode texte (Gallica-BNF).

Page 55: La linguistique textuelle à lorée du numérique Jean-Marie Viprey Maison des Sciences de lHomme de Franche-Comté UMR Bases Corpus Langages CNRS-Nice jean-marie.viprey@univ-fcomte.fr

Brève histoire (très orientée !) de l’informatisation des « textes »

Facteurs d’évolution :

[sur fond de l’évolution technologique]

* La demande liée au traitement de texte :

Mise en forme et interopérabilité > RTF

* La demande liée au Web et à l’hypertexte :

Navigabilité (viabilisation) > HTML, XML.

Paradoxe : ces évolutions atteignent TARDIVEMENT le domaine encore inconstitué et innommé où vont se rencontrer les sciences et techniques du texte…

Exemple : les immenses ressources des grandes bibliothèques publiques sont longtemps numérisées et mises en ligne en mode image (PDF) à l’exclusion du mode texte (Gallica-BNF).

et leur océrisation contrôlée n’est toujours pas considérée comme une priorité des

politiques publiques.

Page 56: La linguistique textuelle à lorée du numérique Jean-Marie Viprey Maison des Sciences de lHomme de Franche-Comté UMR Bases Corpus Langages CNRS-Nice jean-marie.viprey@univ-fcomte.fr

Brève histoire (très orientée !) de l’informatisation des « textes »

Text Encoding Initiative (TEI)

http://www.tei-c.org/index.xml

Page 57: La linguistique textuelle à lorée du numérique Jean-Marie Viprey Maison des Sciences de lHomme de Franche-Comté UMR Bases Corpus Langages CNRS-Nice jean-marie.viprey@univ-fcomte.fr

Brève histoire (très orientée !) de l’informatisation des « textes »

Text Encoding Initiative (TEI)

Représentation XML exhaustive, standardisée, cumulative, interopérable, coopérative.

Page 58: La linguistique textuelle à lorée du numérique Jean-Marie Viprey Maison des Sciences de lHomme de Franche-Comté UMR Bases Corpus Langages CNRS-Nice jean-marie.viprey@univ-fcomte.fr

Brève histoire (très orientée !) de l’informatisation des « textes »

Un document TEI comporte :

Un en-tête (header) dédié aux métadonnées communes :

Instanciation, autorités, signatures, déclaration DTD

Un corps (body) dédié au stockage des énoncés et de leurs annotations fines.

La répartition de l’annotation entre en-tête et corps est souple ;

de même que la segmentation du texte en documents TEI.

Page 59: La linguistique textuelle à lorée du numérique Jean-Marie Viprey Maison des Sciences de lHomme de Franche-Comté UMR Bases Corpus Langages CNRS-Nice jean-marie.viprey@univ-fcomte.fr

Brève histoire (très orientée !) de l’informatisation des « textes »

<title><w forme="Au" lemme="À_prep" ><w forme= lemme="le_artdef" flex="ms">Au <w forme="Lecteur" lemme="lecteur_sm" flex="s">Lecteur</title><BR><BR><verse><w forme="La" lemme="le_artdef" flex="fs">La <w forme="sottise" lemme="sottise_sf" flex="s">sottise<pct forme="," lemme="vrgl">, <w forme="l'" lemme="le_artdef" flex="xs">l'<w forme="erreur" lemme="erreur_sf" flex="s">erreur<pct forme="," lemme="vrgl">, <w forme="le" lemme="le_artdef" flex="ms">le <w forme="péché" lemme="péché_sm" flex="s"><pct forme="," lemme="vrgl">, <w forme="la" lemme="le_artdef" flex="fs">la <w forme="lésine" lemme="lésine_sf" flex="s">lésine<pct forme="," lemme="vrgl">,<format d'appel de note vers Pichon-Pléiade></verse>

Page 60: La linguistique textuelle à lorée du numérique Jean-Marie Viprey Maison des Sciences de lHomme de Franche-Comté UMR Bases Corpus Langages CNRS-Nice jean-marie.viprey@univ-fcomte.fr

Brève histoire (très orientée !) de l’informatisation des « textes »

Philologie numérique :Préparation et établissement des documents TEI

décrivant un manuscrit (une paléographie), une édition, une annotation, un ensemble de signets,

dans la perspective de leur intégration à un réseau de documents pouvant :

-être reliés à la définition informatique (par adresses, arborescente) d’un texte

-être critiqués et commentés par d’autres-être identifiés (historicisés)-… être explorés en corpus

Page 61: La linguistique textuelle à lorée du numérique Jean-Marie Viprey Maison des Sciences de lHomme de Franche-Comté UMR Bases Corpus Langages CNRS-Nice jean-marie.viprey@univ-fcomte.fr

Applications…

Pôle Archive, Bases, Corpus :

*Développement DIATAG : établissement et annotation de textes en français moderne et contemporain

*Développement ASTARTEX : environnement d’analyse textuelle et d’exploration assistée

*Ressources textuelles (acquisition + préparation) :

Base « Presse comtoise 1850-1950 »Base « Aveux de détenus politiques en RD de Guinée sous Sékou Touré »Base « Socialisme utopique – Proudhon, Fourier, Considérant… »Base « Claudel – théâtre, poésie, correspondance »Base « Presse vernaculaire contemporaine en Région – commandite Europe-Région »Base « Littérature orale des phnong du Cambodge »Base « Presse coloniale francophone en Indochine »

Page 62: La linguistique textuelle à lorée du numérique Jean-Marie Viprey Maison des Sciences de lHomme de Franche-Comté UMR Bases Corpus Langages CNRS-Nice jean-marie.viprey@univ-fcomte.fr

Applications…

Représentations de l’Europe à travers la presse « vernaculaire » en Franche-Comté

historique :

La MSHE de Franche-Comté et ses tutelles financières; le SGAR

Commandite / mise à l’épreuve :

« pourquoi notre région, copieusement arrosée de fonds structurants européens, vote-t-elle à 57% ‘non’ au referendum TCE de mai 2005 ? »

Page 63: La linguistique textuelle à lorée du numérique Jean-Marie Viprey Maison des Sciences de lHomme de Franche-Comté UMR Bases Corpus Langages CNRS-Nice jean-marie.viprey@univ-fcomte.fr

Applications… Représentations de l’Europe à travers la presse « vernaculaire » en

Franche-Comté

historique :

La MSHE de Franche-Comté et ses tutelles financières; le SGAR

Commandite / mise à l’épreuve :

« pourquoi notre région, copieusement arrosée de fonds structurants européens, vote-t-elle à 57% ‘non’ au referendum TCE de mai 2005 ? »

Notre réponse (proposition du pôle ABC) :A côté d’un sondage classique d’opinion,

un volet d’ analyse du discours de presse.

Recueillir l’ensemble des publications déposées au dépôt légal régional entre avril 2004 et mai 2006

Les océriser, les disposer en une base textuelle

Constituer un corpus d’étude et le soumettre à une analyse exploratoire débouchant sur quelques conclusions

Inscrire cette opération dans une durée (suivi des représentations)

Page 64: La linguistique textuelle à lorée du numérique Jean-Marie Viprey Maison des Sciences de lHomme de Franche-Comté UMR Bases Corpus Langages CNRS-Nice jean-marie.viprey@univ-fcomte.fr

Applications… [excursus « qui n’a rien à voir ?...]

Bien souvent, dans le contexte universitaire contemporain, les moyens réduits nous

conduisent à réduire (provisoirement) la base projetée aux dimensions du corpus adapté à

l’enquête en cours (commande institutionnelle, publication, thèse…)

Page 65: La linguistique textuelle à lorée du numérique Jean-Marie Viprey Maison des Sciences de lHomme de Franche-Comté UMR Bases Corpus Langages CNRS-Nice jean-marie.viprey@univ-fcomte.fr

Applications… [excursus « qui n’a rien à voir ?...]

Bien souvent, dans le contexte universitaire contemporain, les moyens réduits nous conduisent à réduire (provisoirement) la base projetée aux

dimensions du corpus adapté à l’enquête en cours (commande institutionnelle, publication, thèse…)

Ce n’est pas une raison pour le « théoriser ».

Page 66: La linguistique textuelle à lorée du numérique Jean-Marie Viprey Maison des Sciences de lHomme de Franche-Comté UMR Bases Corpus Langages CNRS-Nice jean-marie.viprey@univ-fcomte.fr

Applications…

Représentations de l’Europe à travers la presse « vernaculaire » en Franche-Comté

corpus :

942 titres de presse déposés (base)

282 titres « filtrés » par mots-clés

692 articles de longueurs variables (corpus)

Page 67: La linguistique textuelle à lorée du numérique Jean-Marie Viprey Maison des Sciences de lHomme de Franche-Comté UMR Bases Corpus Langages CNRS-Nice jean-marie.viprey@univ-fcomte.fr

Applications… Représentations de l’Europe à travers la presse

« vernaculaire » en Franche-Comté

corpus :

692 fichiers PDF océrisés, corrigés, instanciés

Page 68: La linguistique textuelle à lorée du numérique Jean-Marie Viprey Maison des Sciences de lHomme de Franche-Comté UMR Bases Corpus Langages CNRS-Nice jean-marie.viprey@univ-fcomte.fr

Applications… Représentations de l’Europe à travers la presse

« vernaculaire » en Franche-Comtécorpus :

692 fichiers balisés « mot à mot » (pseudo xml)

Page 69: La linguistique textuelle à lorée du numérique Jean-Marie Viprey Maison des Sciences de lHomme de Franche-Comté UMR Bases Corpus Langages CNRS-Nice jean-marie.viprey@univ-fcomte.fr

Applications…

Représentations de l’Europe à travers la presse « vernaculaire » en Franche-Comté

corpus :

316 500 « mots » (occurrences, tokens)

20 800 formes graphiques (types)

Opération de lemmatisation (étiquetage lexical et morphologique)

Alternance

d’applications automatiques de ressources (dictionnaires et scripts de levée contextuelle d’ambiguïtés graphiques)

de phases de décision interactive pour les cas indécidables par automates

Maintenance et enrichissement des ressources linguistiques

(système DiaTag)

Page 70: La linguistique textuelle à lorée du numérique Jean-Marie Viprey Maison des Sciences de lHomme de Franche-Comté UMR Bases Corpus Langages CNRS-Nice jean-marie.viprey@univ-fcomte.fr

Applications…

Représentations de l’Europe à travers la presse « vernaculaire » en Franche-Comté

corpus :

Page 71: La linguistique textuelle à lorée du numérique Jean-Marie Viprey Maison des Sciences de lHomme de Franche-Comté UMR Bases Corpus Langages CNRS-Nice jean-marie.viprey@univ-fcomte.fr

Applications…

Représentations de l’Europe à travers la presse « vernaculaire » en Franche-Comté

corpus :

310 000 occurrences

13 800 lemmes (types)

Page 72: La linguistique textuelle à lorée du numérique Jean-Marie Viprey Maison des Sciences de lHomme de Franche-Comté UMR Bases Corpus Langages CNRS-Nice jean-marie.viprey@univ-fcomte.fr

Applications…

Représentations de l’Europe à travers la presse « vernaculaire » en Franche-Comté

Une comparaison « exogène » : une base contemporaine (2002) de 5 quotidiens nationaux d’information générale sur 5 mois – 30 millions de mots. Non lemmatisée.

Occurrences, puis écarts-réduits à l’équidistribution.

Muller Ch. (1992). Initiation aux méthodes de la statistique linguistique. Champion

Page 73: La linguistique textuelle à lorée du numérique Jean-Marie Viprey Maison des Sciences de lHomme de Franche-Comté UMR Bases Corpus Langages CNRS-Nice jean-marie.viprey@univ-fcomte.fr

Applications…

Représentations de l’Europe à travers la presse « vernaculaire » en Franche-Comté

Une comparaison « endogène » : la distribution d’un item lexical repéré comme « mot-clé » parmi les parties structurelles du corpus.

Perspective discursive. Ouvre sur l’interprétation.

Page 74: La linguistique textuelle à lorée du numérique Jean-Marie Viprey Maison des Sciences de lHomme de Franche-Comté UMR Bases Corpus Langages CNRS-Nice jean-marie.viprey@univ-fcomte.fr

Applications… Représentations de l’Europe à travers la presse « vernaculaire » en Franche-Comté

Le tableau de la distribution générale des vocables dans les sous-corpus par groupes d’énonciateurs se présente comme suit.

L’Analyse Factorielle des Correspondances (AFC) permet de classer les profils des lignes et des colonnes d’un tel tableau, et de projeter cette classification en un nuage de points (ici, un nuage dans l’espace 3D d’une boule, repris en planisphère).

Lebart L. & Salem A. (1994). Statistique textuelle. DunodCibois Ph. (1994). L’Analyse factorielle. PUF

Page 75: La linguistique textuelle à lorée du numérique Jean-Marie Viprey Maison des Sciences de lHomme de Franche-Comté UMR Bases Corpus Langages CNRS-Nice jean-marie.viprey@univ-fcomte.fr

Applications… Représentations de l’Europe à travers la presse « vernaculaire » en Franche-Comté

Une comparaison « endogène » généralisée : la distribution d’un grand nombre d’items lexicaux parmi les parties structurelles du corpus. (AFC projection 3 facteurs)

Page 76: La linguistique textuelle à lorée du numérique Jean-Marie Viprey Maison des Sciences de lHomme de Franche-Comté UMR Bases Corpus Langages CNRS-Nice jean-marie.viprey@univ-fcomte.fr

Applications… Représentations de l’Europe à travers la presse « vernaculaire » en Franche-Comté

Une comparaison « endogène » généralisée : la distribution d’un grand nombre d’items lexicaux parmi les parties structurelles du corpus. Zoom.

Page 77: La linguistique textuelle à lorée du numérique Jean-Marie Viprey Maison des Sciences de lHomme de Franche-Comté UMR Bases Corpus Langages CNRS-Nice jean-marie.viprey@univ-fcomte.fr

PAUSE… Structures textuelles non séquentielles.

Qu’est-ce que le vocabulaire (vs lexique) ?

Qu’est-ce qu’un vocable (vs lexème)

On peut « exprimer » le vocabulaire comme liste des vocables (avec indication de leur fréquence).

On peut même utiliser ce « dictionnaire élémentaire » comme répertoire (cliquable en hypertexte).

Page 78: La linguistique textuelle à lorée du numérique Jean-Marie Viprey Maison des Sciences de lHomme de Franche-Comté UMR Bases Corpus Langages CNRS-Nice jean-marie.viprey@univ-fcomte.fr

PAUSE… Structures textuelles non séquentielles.

Qu’est-ce que le vocabulaire (vs lexique) ?

Qu’est-ce qu’un vocable (vs lexème)

On peut « exprimer » le vocabulaire comme liste des vocables (avec indication de leur fréquence).

On peut même utiliser ce « dictionnaire élémentaire » comme répertoire (cliquable en hypertexte).

Mais on peut aussi concevoir qu’un vocable est une série d’occurrences.

Il détermine une série de contextes (phrases e.g.)

Cette série de contextes est une espèce particulière

- et particulièrement intéressante -

de « sous-ensemble » textuel.

Page 79: La linguistique textuelle à lorée du numérique Jean-Marie Viprey Maison des Sciences de lHomme de Franche-Comté UMR Bases Corpus Langages CNRS-Nice jean-marie.viprey@univ-fcomte.fr

PAUSE… Structures textuelles non séquentielles.

Qu’est-ce que le vocabulaire (vs lexique) ?

Qu’est-ce qu’un vocable (vs lexème)

Nous pouvons déterminer si, dans le contexte total – discontinu – d’un vocable, tel autre vocable est significativement plus présent que dans

l’ensemble du texte.

(écart-réduit > 2)

Page 80: La linguistique textuelle à lorée du numérique Jean-Marie Viprey Maison des Sciences de lHomme de Franche-Comté UMR Bases Corpus Langages CNRS-Nice jean-marie.viprey@univ-fcomte.fr

PAUSE… Structures textuelles non séquentielles.

Qu’est-ce que le vocabulaire (vs lexique) ?

Qu’est-ce qu’un vocable (vs lexème)

Nous pouvons déterminer, pour un vocable, quels

sont ses cooccurrents les plus forts.

(exemple : concurrence_SF)

Page 81: La linguistique textuelle à lorée du numérique Jean-Marie Viprey Maison des Sciences de lHomme de Franche-Comté UMR Bases Corpus Langages CNRS-Nice jean-marie.viprey@univ-fcomte.fr

PAUSE… Structures textuelles non séquentielles.

Qu’est-ce que le vocabulaire (vs lexique) ?

Qu’est-ce qu’un vocable (vs lexème)

Nous pouvons généraliser cette observation, en comparant les profils de cooccurrence des principaux vocables d’un ensemble textuel.

On recueille les données dans une matrice lignes/colonnes :

Page 82: La linguistique textuelle à lorée du numérique Jean-Marie Viprey Maison des Sciences de lHomme de Franche-Comté UMR Bases Corpus Langages CNRS-Nice jean-marie.viprey@univ-fcomte.fr

PAUSE… Structures textuelles non séquentielles.

Qu’est-ce que le vocabulaire (vs lexique) ?

Qu’est-ce qu’un vocable (vs lexème)

L’Analyse Factorielle des Correspondances (AFC) permet de classer les profils cooccurrentiels et de projeter cette classification en un nuage de points (ici, un nuage dans l’espace 3D d’une boule, repris en planisphère)

Page 83: La linguistique textuelle à lorée du numérique Jean-Marie Viprey Maison des Sciences de lHomme de Franche-Comté UMR Bases Corpus Langages CNRS-Nice jean-marie.viprey@univ-fcomte.fr

PAUSE… Structures textuelles non séquentielles.

Qu’est-ce que le vocabulaire (vs lexique) ?

Qu’est-ce qu’un vocable (vs lexème)

La proximité (angulaire) des points du nuage est une fonction approchée de leur parenté de profil « (micro-)distributionnel ».

Cette proximité définit ce que nous nommons ISOTROPIE.

Page 84: La linguistique textuelle à lorée du numérique Jean-Marie Viprey Maison des Sciences de lHomme de Franche-Comté UMR Bases Corpus Langages CNRS-Nice jean-marie.viprey@univ-fcomte.fr

PAUSE… Structures textuelles non séquentielles.

Qu’est-ce que le vocabulaire (vs lexique) ?

Qu’est-ce qu’un vocable (vs lexème)

L’ ISOTROPIE, rapport d’ équivalence distributionnelle au sens harrissien, structure le vocabulaire en éclairant la signification (en contexte) d’items lexicaux pluri-occurrents.

Elle donne à la fois un aperçu « thématique » sur l’ensemble et un aperçu « sémantique » sur le détail.

Elle s’oppose conceptuellement à l’ ISOTOPIE, avec laquelle elle peut opérationnellement être en rapport de complémentarité.

Page 85: La linguistique textuelle à lorée du numérique Jean-Marie Viprey Maison des Sciences de lHomme de Franche-Comté UMR Bases Corpus Langages CNRS-Nice jean-marie.viprey@univ-fcomte.fr

Est-ce réellement encore… une PAUSE ? Structures textuelles non séquentielles.

Qu’est-ce que le vocabulaire (vs lexique) ?

Qu’est-ce qu’un vocable (vs lexème)

Plus sophistiqué.

On peut repérer dans le nuage les items sur-employés dans une partie discursive du corpus. Ici, en bleu, les vocables privilégiés par les syndicats d’agriculteurs (princ. Confédération Paysanne )

Page 86: La linguistique textuelle à lorée du numérique Jean-Marie Viprey Maison des Sciences de lHomme de Franche-Comté UMR Bases Corpus Langages CNRS-Nice jean-marie.viprey@univ-fcomte.fr

Est-ce réellement encore… une PAUSE ? Structures textuelles non séquentielles.

Qu’est-ce que le vocabulaire (vs lexique) ?

Qu’est-ce qu’un vocable (vs lexème)

On peut même affecter 4 couleurs distinctes aux vocables privilégiés par les 4 principaux groupes énonciateurs.

Page 87: La linguistique textuelle à lorée du numérique Jean-Marie Viprey Maison des Sciences de lHomme de Franche-Comté UMR Bases Corpus Langages CNRS-Nice jean-marie.viprey@univ-fcomte.fr

Est-ce réellement encore… une PAUSE ? Structures textuelles non séquentielles.

Qu’est-ce que le vocabulaire (vs lexique) ?

Qu’est-ce qu’un vocable (vs lexème)

Ce n’est pas toujours le cas, mais ici la structure isotropique est fortement homologue de la répartition par groupes d’énonciateurs.

Ce fut même un élément-clé de notre rapport d’interprétation.

Page 88: La linguistique textuelle à lorée du numérique Jean-Marie Viprey Maison des Sciences de lHomme de Franche-Comté UMR Bases Corpus Langages CNRS-Nice jean-marie.viprey@univ-fcomte.fr

Révisons…

Profils micro-distributionnels

Page 89: La linguistique textuelle à lorée du numérique Jean-Marie Viprey Maison des Sciences de lHomme de Franche-Comté UMR Bases Corpus Langages CNRS-Nice jean-marie.viprey@univ-fcomte.fr

Révisons…

Profils micro-distributionnels

Comparaison par paires : deux profils voisins.

Page 90: La linguistique textuelle à lorée du numérique Jean-Marie Viprey Maison des Sciences de lHomme de Franche-Comté UMR Bases Corpus Langages CNRS-Nice jean-marie.viprey@univ-fcomte.fr

Révisons…

Profils micro-distributionnels

Comparaison par paires : deux profils opposés.

Page 91: La linguistique textuelle à lorée du numérique Jean-Marie Viprey Maison des Sciences de lHomme de Franche-Comté UMR Bases Corpus Langages CNRS-Nice jean-marie.viprey@univ-fcomte.fr

Révisons…

Analyse multidimensionnelle (AFC) de l’isotropie.

(plan des 2 premiers facteurs)

Page 92: La linguistique textuelle à lorée du numérique Jean-Marie Viprey Maison des Sciences de lHomme de Franche-Comté UMR Bases Corpus Langages CNRS-Nice jean-marie.viprey@univ-fcomte.fr

Avançons…

Une autre application : le lexique en discours.

Eléments de description lexicologique d’un vocable : REGARD,Nm

Balzac,

La Comédie humaine

Page 93: La linguistique textuelle à lorée du numérique Jean-Marie Viprey Maison des Sciences de lHomme de Franche-Comté UMR Bases Corpus Langages CNRS-Nice jean-marie.viprey@univ-fcomte.fr

Avançons…

Une autre application :

le lexique en discours.

Balzac,

La Comédie humaine

Viprey 2005A

Page 94: La linguistique textuelle à lorée du numérique Jean-Marie Viprey Maison des Sciences de lHomme de Franche-Comté UMR Bases Corpus Langages CNRS-Nice jean-marie.viprey@univ-fcomte.fr

Avançons…

Une autre application :

le lexique en discours.

Page 95: La linguistique textuelle à lorée du numérique Jean-Marie Viprey Maison des Sciences de lHomme de Franche-Comté UMR Bases Corpus Langages CNRS-Nice jean-marie.viprey@univ-fcomte.fr

Avançons…

Une autre application : le lexique en discours.

Eléments de description lexicologique différentielle d’un vocable : REGARD,Nm éclairé par REGARDER,V

Balzac,

La Comédie humaine

Page 96: La linguistique textuelle à lorée du numérique Jean-Marie Viprey Maison des Sciences de lHomme de Franche-Comté UMR Bases Corpus Langages CNRS-Nice jean-marie.viprey@univ-fcomte.fr

Généralisons…

CONSTITUER, TRAITER… LIRE LES [GRANDS] CORPUS ?

Un « grand » corpus, ce peut être des centaines de millions de mots (étude d’un discours de presse)… mais aussi bien 300 000 mots s’ils se répartissent dans 700 articles parfois très fastidieux (notre exemple au service du SGAR de Franche-Comté).

Page 97: La linguistique textuelle à lorée du numérique Jean-Marie Viprey Maison des Sciences de lHomme de Franche-Comté UMR Bases Corpus Langages CNRS-Nice jean-marie.viprey@univ-fcomte.fr

Généralisons…

CONSTITUER, TRAITER… LIRE LES [GRANDS] CORPUS ?

« Traiter » un grand corpus, c’est bien sûr une question statistique. On fait monter ses régularités, ses saillances, on le cartographie.Cela, en vue d’une meilleure pénétration d’un discours.

La question souvent éludée en sciences humaines, c’est le choix des attestations. L’expertise de l’expert se mord un peu la queue…

Page 98: La linguistique textuelle à lorée du numérique Jean-Marie Viprey Maison des Sciences de lHomme de Franche-Comté UMR Bases Corpus Langages CNRS-Nice jean-marie.viprey@univ-fcomte.fr

Généralisons…

CONSTITUER, TRAITER… LIRE LES [GRANDS] CORPUS ?

Certains logiciels prétendent extraire les phrases les plus représentatives, fabriquer des résumés, le tout automatiquement (« boîtes noires »).

L’ambition d’une ATD « outillée » est d’aider le chercheur à explorer son corpus au plus près de ses compétences et de ses hypothèses, par un « retour au texte » aussi plénier que possible.

Par l’alternance des « états de texte » (plein texte, dictionnaires, listes, cartes, formules de requête…)

Page 99: La linguistique textuelle à lorée du numérique Jean-Marie Viprey Maison des Sciences de lHomme de Franche-Comté UMR Bases Corpus Langages CNRS-Nice jean-marie.viprey@univ-fcomte.fr

Généralisons…

CONSTITUER, TRAITER… LIRE LES [GRANDS] CORPUS ?

L’ambition d’une ATD « outillée » est de VIABILISER les corpus en vue d’un travail constitutif, descriptif, réflexif et interprétatif élargi et approfondi.

Cette ambition se rencontre avec le développement des concepts et des techniques de l’ HYPERTEXTE, dont HTML et XML sont les langages.

Hyperbase depuis quinze ans, Astartex-DiaTag plus modestement, préfigurent cet environnement un peu « intégral » où se rejoignent le philologue et l’herméneute.

Page 100: La linguistique textuelle à lorée du numérique Jean-Marie Viprey Maison des Sciences de lHomme de Franche-Comté UMR Bases Corpus Langages CNRS-Nice jean-marie.viprey@univ-fcomte.fr

Bibliographie…

La bibliographie est donnée en notes sur les diapositives, à l’exception des références de l’auteur, qui suivent :

● 2008 avec Virginie Lethier (coordonnateurs) Semen n°25, Le Discours de presse au XIXème siècle : pratiques socio-discursives émergentes. – Besançon, Presses Universitaires de Franche-Comté● 2008 avec Virginie Lethier «Annotation linguistique de corpus : vers l’exhaustivité par la convialité.» in JADT’09, 9èmes Journées internationales d'Analyse statistique des Données Textuelles. – Lyon, Presses Universitaires de Lyon● 2006 (coordonnateur) JADT’06 , 8èmes Journées internationales d'Analyse statistique des Données Textuelles. – Besançon, Presses Universitaires de Franche-Comté.● 2006 « Philologie numérique et herméneutique intégrative » in Sciences du texte et analyse de discours : enjeux d’une interdisciplinarité dir. Jean-Michel Adam & Ute Heidman. – Genève : Slatkine (pp. 51-68)● 2006 « About Labbé’s intertextual distance » in Journal of Quantitatie Linguistics vol.13 n° 2-3 Août-Décembre 2006, Routledge (pp.164-284)● 2006 « …un de ces syntagmes qui… » in Corpus n°5, Corpus et stylistique, 2006, CNRS-UNSA.● 2006 « Quelle place pour les sciences des textes dans l’Analyse de Discours » in Semen n° 21 Catégories pour l’analyse du discours politique, Besançon, Presses Universitaires de Franche-Comté (pp.167-182)● 2006 « Ergonomiser la visualisation AFC dans un environnement d’exploration textuelle : une projection ‘géodésique’ » in JADT’06, 8èmes Journées internationales d'Analyse statistique des Données Textuelles. – Besançon, Presses Universitaires de Franche-Comté.● 2005 « Méthodes pour la lecture des corpus » in Sémantique et corpus dir. Anne Condamines. – Hermès● 2005 « Structure non séquentielle du texte » in Langages n° 161, Unité(s) du texte dir. Dominique Legallois. – Paris : Larousse. (pp. 65-82)● 2002 Analyses textuelles et hypertextuelles des Fleurs du mal - Champion, Paris.● 1997 Dynamique du vocabulaire des Fleurs du mal - Champion, Paris. (Prix International de la Fondation Paul-Robert 1998).