SIGNALEMENTS DE CORPUS
- Corpus Droits de l'Homme du LLI (Paris XIII)
- Politext
- Discours métacognitifs d'adultes en formation
- Énergie nucléaire
- Corpus bilingue d'articles scientifiques
- Philosophie contemporaine
- Corpus Le monde
Pour faire connaître votre corpus vous pouvez vous inspirer des questions suivantes.
- A.1- désignation choisie
- A.2- composition du corpus : provenance, domaine, genres des textes
- A.3- format(s)
- A.4- indication de taille
- B.1- perspective particulière dans laquelle il est rassemblé
- B.2- État d'avancement et projet
- B.3- Outils utilisés
- B.4- Difficultés rencontrées liées à la nature du genre du corpus
- C.1- Morale de l'histoire : conclusions tirées quant aux normes (TEI, CES) et outils disponibles
Échanges de corpus : Texte®
Corpus Droits de l'Homme 
-
Désignation : Corpus « Droits de l'Homme » (LLI,
Université Paris XIII)
-
Le corpus est constitué de 28 Conventions internationales
comprises entre 1948 à 2000. Les Conventions sont en deux
(français/anglais) ou trois langues (français/anglais/espagnol) et
sont alignées.
- Format : XML/TEI.
- Taille : 250 000 mots
-
Rassemblé dans la perspective d'établir un
corpus de référence du domaine.
-
Plus d'info : document PDF
- Contact : corpus@lli.univ-paris13.fr
Politext

-
Composition : 3000 discours politiques du XX° siècle, 10 millions d'occurrences. Par facilité (et non par fascination pour la biographie) je compile (pour l'instant) les discours des grands locuteurs individuels (et non collectifs). Dans l'ordre chronologique j'ai l'exhaustivité, la plupart, beaucoup, un certain nombre de discours de Jaurès, Thorez, Blum, Flandin, Tardieu, Petain, Mendes, De Gaulle, Pompidou, Giscard, Mitterrand, Chirac, et Jospin. III° et V° Républiques sont bien représentées : je m'attaque donc en ce moment à la IV° (Mendes, Pinay, Mollet).
Pour chaque locuteur, j'aspire à l'exhaustivité c'est dire que je prends tout (articles, discours, interviews, oral, écrit...). Deux restrictions seulement, importantes et arbitraires : le discours doit être public (pas d'archive secrète, de journal intime ou de lettre privée) et le discours doit être prononcé en France et en français (pas de discours de Chirac au Japon...).
Provenance : tous azimuts : archives nationales, presse, recueils de discours, internet... Méthode de saisie : recopiage à la main d'archives, scannage de livre, téléchargement, dons de chercheur (D. Labbé)...
- Format : Word.
- Taille : 3000 discours politiques du XX° siècle, 10 millions d'occurrences, quelques mégas octets mais je suis loin de remplir le moindre CD Rom.
-
Perspective particulière dans laquelle il est rassemblé :
D'une part diffusion de discours à qui le veut, par internet. (Le site est en projet mais reste à faire).
D'autre part et surtout, traitement logomatique ("lexicométrie" c'est aujourd'hui trop réducteur pour le couple Hyperbase-Cordial) pour une compréhension de la parole politique au XX°. (Si le site de simple diffusion de discours reste à faire c'est qu'il a la prétention de contenir aussi les (Hyper)bases statistiques (la base "Blum", la base "Présidents de la V° République", etc.). Et ceci est plus compliqué.
-
Projet : Les extensions quantitatives sont importantes : enrichir le XX° siècle (Poincaré, Clemenceau, Herriot... + locuteurs collectifs) et à terme élargir au 19° siècle pour une vision complète de la parole politique contemporaine (1789-2000). Cela paraît fou, et je sais que le laboratoire de St Cloud s'y est cassé les dents, mais je pense commencer à devenir crédible avec 10 millions d'occurrences déjà stockés.
-
Difficultés : multiples notamment faute de bras. Mais j'en évoquerai qu'une seule : le formatage. Je n'ai toujours pas plongé dans la XMLisation, j'ai souvent voulu, je suis monté plusieurs fois sur le plongeoir, je me suis même approché tout près du bord en constituant notamment selon les maigres indications TEI, un en-tête en bonne et due forme pour mes discours politiques (que je vous annexe au cas où), mais je n'ai toujours pas plongé. Je bute particulièrement sur deux problèmes au niveau de l'en-tête : 1) de manière générale, la TEI ne donne pratiquement aucune indication pour le discours politique. C'est un grand oublié. Et je ne peux avoir la prétention de tout inventer 2) sur un point particulier : je veux mettre dans mon en-tête le genre des discours (pour pouvoir convoquer par exemple tous les discours parlementaires de Blum, ou tous les articles de presse de Chirac) Mais il n'y a pas de typologie générique stable. Il suffit pour mesurer cela d'aller sur le site de l'Élysée puis sur celui de Matignon : nous avons le choix de sélection entre "allocution", "discours", "message", "propos", "déclaration", ailleurs nous avons "Éditorial", "tribune", "point de vue", "communiqué"... etc. : le dictionnaire des synonymes n'y suffit pas.
- Contact : Damon Mayaffre
Discours métacognitifs d'adultes en formation
-
Provenance : Corpus de thèse en Sciences du Langage ; retranscriptions intégrales d'enregistrements d'entretiens semi-directifs auprès d'infirmiers en formation
Domaine : Champ de pratique sociale de la formation d'adultes
Genre : Discours d'analyse de pratiques d'apprentissage en formation d'adulte
- Word 98
-
Taille : Entretien avec...
Marie = 10 302 mots
Valérie = 13 041 mots
Henri = 11 599 mots
Yann = 14 172 mots
-
Perspective d'analyse : Réaliser deux analyses successives :
- une analyse linguistique du discours : repérage des modalisations et des argumentations ( au moyen de connecteurs) afin de proposer une "hypothèse externe" interprétative du discours d'un individu donné, de la présentation qu'il fait de lui-même dans son apprentissage
- une analyse sémantique mobilisant un modèle de sémantique argumentative intégrée relevant de la sémantique des stéréotypes (cf. sémantique des possible argumentatifs ; Galatanu 1999, 2000, 2001, je peux préciser si besoin est) afin de tester ce modèle comme "hypothèse interne" vis-à-vis d'un corpus ;
-
Codage : La transcription n'étant pas faite pour l'analyse de l'oral, elle a éliminé les hésitations, etc. et est d'autant plus analysable par un étiqueteur.
-
Projet : Corpus partiel (20 entretiens dorment encore...., mais moins homogènes). Plutôt que d'extension, je souhaite approfondir l'analyse sémantique en m'efforçant d'apporter des pistes pour compléter la description des stéréotypes dans le modèle choisi : seuls quelques syntagmes en co-texte doivent être analysés systématiquement.
- Contact : Marion Pescheux
Énergie nucléaire
-
Composition du corpus : Le corpus rassemble des textes écrits.
Thème : Application civile de l'énergie nucléaire
Période : septembre 1993- janvier 1997
Destinateurs : Entreprises du nucléaire, Greenpeace, Médias
Destinataire : Grand public
Types de textes : . brochures publiées, distribuées par les entreprises du nucléaire et destinées au grand public (Andra, Cogema, CEA)
. brochures d'association (Greenpeace)
. un texte de loi
. articles de vulgarisation (Science & vie et Sciences et Avenir)
. articles de journaux généralistes, quotidiens, hebdomadaires et mensuels (Paris-Normandie, Le Courrier cauchois, Le Monde diplomatique, L'Express, Le Nouvel Observateur).
- Format : Word.
- Taille : 290 000 mots, 2,03 Mo
-
Perspective d'analyse : Analyse des termes et désignations circulants.
-
Codage : Les italiques ont été conservés. Les 12 énonciateurs à l'origine du corpus correspondent aux titres Word de niveau 1. Le titre des brochures ou de l'article apparaît en titre de niveau 2. Les autres niveaux de titres correspondent à la hiérarchisation qui existait dans les textes d'origine. On trouve également le titre de l'article, le nom des auteurs (repérables par le style " auteur "), la mention de la page en fin d'article et les légendes (indiqués par le style " légende ").
-
État d'avancement et perspectives d'extension : Corpus clos dans l'état actuel des choses
- Contact : Valérie Delavigne
Corpus bilingue d'articles scientifiques

-
Projet : caractérisation de l'article scientifique, appréhendé en tant que genre, en contrastive français/anglais, avec une attention particulière sur l'axe théorique/appliqué. Le corpus est en cours de constitution et devra être balisé.
-
Le corpus sera constitué d'un ensemble de 500 articles scientifiques linguistiques dans les deux langues (soit 250 pour chaque langue). Le corpus français est quasi complet et se compose actuellement comme suit:
a.. le Bulletin de la Société Linguistique de Paris (4 numéros) ;
b.. les Cahiers de Praxématique (une quinzaine de revues) ;
c.. les Cahiers du CIEL (3 numéros) ;
d.. HEL (4 numéros) ;
e.. Langage (à venir) ;
f.. Langue Française (2 numéros + 2 autres à venir) ;
g.. la linguistique (en attente) ;
h.. LINX (4 numéros) ;
i.. les Recherches linguistiques de Vincennes (en attente) ;
j.. Revue de Sémantique et Pragmatique (10 numéros) ;
k.. Sémiotiques ;
l.. Scolia (à venir) ;
m.. TAL (en attente) ;
-
Je dispose pour le moment des archives PDF des revues Lingua, Journal of Pragmatics et Journal of Phonetics.
-
Difficultés : Le sujet sur lequel je travaille étant contrastif français-anglais, un gros problème d'adaption des outils - généralement unilingues - dans les deux langues se pose. Cf. la liste (non exhaustive) des outils disponibles en libre accès, auxquels j'ai rajouté d'autres outils commerciaux.
- Contact : Céline Poudat
Corpus de philosophie contemporaine

-
Composition : différentes logiques de regroupement : des commentaires de Spinoza de différentes obédiences, des séries diachroniques, des séries thématiques.
- Autour de Spinoza : "Spinoza ou la philosophie pratique" de Deleuze (1981), court texte
hétérogène s'adressant à un large public ; "Spinoza ou le problème de l'expression" de Deleuze (1968), essai dans la tradition de l'histoire de la philosophie, version savante ; Les transcriptions d'une série de 11 séminaires consacrés à Spinoza entre 1978 et 1981 : genre deleuzien ; Les cinq volumes du Commentaire de l'Ethique de Macherey (publication échelonnée de 1994 à 1998) ; le Spinoza de Alain ; L'Ethique de Spinoza dans la traduction de Guérinot (sur laquelle travaillait les commentateurs)
- Autour de Deleuze : un nombre grandissant (bientôt dix) d'oeuvres intégrales publiées de Deleuze, représentant autant que possible l'empan diachronique (de 1953 à 1993), génériques (essais savants, tradition du commentaires, élaboration d'un registre personnel), et thématique (philosophie académique, littérature, peinture, musique...)
- Une série thématique est en cours de constitution à partir de Différence et répétition de Deleuze, l'écriture et la différence de Derrida, et le Différend de Lyotard.
-
Taille : 15 MO aujourd'hui
-
Perspective : décrire sémantiquement des objets philosophiques (fabrication et évolution de concept) et les genres du discours philosophique. En particulier, hypothèse d'un renouvellement des genres avec l'adoption de nouveaux tons autour de 1968.
-
Codage : XML en TEI, les traits physique (italiques, etc.) et la structure des textes originaux sont systématiquement gardés (divisions, notes, etc.), des balises précisent autant que possible langues, références, noms propres, etc. Encodage morpho-syntaxique XML en projet.
- Contact : Sylvain Loiseau
Corpus Le monde 
- Les voisins de Le Monde est une base lexicale distributionnelle du français construite automatiquement, à partir d'un corpus comprenant l'ensemble des articles du quotidien Le Monde sur une période de 10 ans (1991-2000). Le corpus Le Monde a été obtenu auprès de l'agence ELRA. Il a été étiqueté au niveau morphosyntaxique par Treetagger, de l'Université de Stuttgart. L'extraction des contextes syntaxiques a été réalisée par l'analyseur syntaxique Syntex, développée dans le cadre d'une collaboration entre le laboratoire ERSS et la société Synomia. L'analyse distributionnelle a été réalisée par l'outil Upery développé à l'ERSS.
- Pour chaque unité lexicale (nom, verbe, adjectif), on donne accès :
- à ses "cooccurrents syntaxiques" (par exemple, le nom "peur" apparaît de façon très régulière dans les contextes syntaxiques "trembler de ~", "frissonner de ~", "~ tenailler", "exorciser ~", etc.)
- à ses "voisins distributionnels" (par exemple, le nom "traité" a pour voisins "convention", "accord", "constitution" car tous ces noms ont comme cooccurrents syntaxiques : "stipulation de ~", "ratifier ~", "renégociation de ~", "ratification de ~", "signataire de ~", "signature de ~", "parapher ~", etc.)
-
Accès : http://www.univ-tlse2.fr/erss/voisinsdelemonde/
- Contact : Didier Bourigault