SdT v.4 n.8

1998_10_19

________________________________________________________________________________

SdT volume 4, numero 8.

LA CITATION DU MOIS

________________________________________________________

Quant au sujet qui parle, il faut bien que l'acte

d'expression lui permette de dépasser lui aussi ce

qu'il pensait auparavant et qu'il trouve dans ses

propres paroles plus qu'il ne pensait y mettre,

sans quoi on ne verrait pas la pensée, même solitaire,

chercher l'expression avec tant de persévérance.

M. MERLEAU-PONTY

________________________________________________________

SOMMAIRE

1- Coordonnees

- Bienvenue au nouveaux correspondants du mois : Amilcare Cassanello,

Guri Ellen Barstad.

- Changement d'adresse pour : Thierry Mezaille, Bassir Amiri, Michel

Schmouchkovitch, Marc Ratcliff et Aboubakar Ouattara.

2- Carnet

- La messagerie de Texto!

- Cours recent de Francois Rastier au Canada ; calendrier des cours

(seminaire) a Paris pour 1998-99.

- Seminaire de 3e cycle de Suisse romande 1998-1999 sur W. von Humboldt.

3- Textes electroniques

- Jean La Fontaine, Voltaire ; Saint Augustin et autres editions avec

preoccupations philologiques.

- Oxford Text Archive, Electronic Resources for Classicists, Rassegna

delle Risorse Elettroniche per lo Studio dell'Antichità Classica.

- Le serveur SILFIDE : ressources actuelles.

- Un tournant pour la TEI (Text Encoding Initiative).

- Des outils informatiques pour l'analyse des textes litteraires :

ELTA (encoded literary text analysis).

- Le logiciel Hyperbase-Enseignement et la banque textuelle BATELIER :

presentation du projet de recherche et resume du cahier des charges.

4- Publications et bibliographie

- De nouveaux textes sur Texto! : inedits de F. Rastier et

M. Schmouchkovitch, et le trilogue Rastier / Dumesnil / Salanskis

sur l'affaire Sokal.

- These de Houssem Assadi : "Construction d'ontologies à partir de

textes techniques - Application aux systèmes documentaires".

- La revue CHWP.

5- Colloques

- Computers and the Humanities : ACH/ALLC'99, Virginia, 9-13 juin 1999.

- XIIIe colloque international de la SATOR : "Du domaine de la ruse

aux frontieres du topos", Toronto, 12-15 mai 1999.

- "Saussure, Paris-Geneve : Regards epistemologiques sur un siecle de

linguistique", Sorbonne, 14 novembre 1998.

11111111111111111111111111111111111111111111111111111111111111111111111111111111

Coordonnees Coordonnees Coordonnees Coordonnees Coordonnees Coordonnees

11111111111111111111111111111111111111111111111111111111111111111111111111111111

NOUVEAUX ABONNÉS

[information réservée aux abonnés]

22222222222222222222222222222222222222222222222222222222222222222222222222222222

Carnet Carnet Carnet Carnet Carnet Carnet Carnet Carnet Carnet Carnet Carnet

22222222222222222222222222222222222222222222222222222222222222222222222222222222

{FR, 18/10/98}

TEXTO! SERVICE PUBLIC ?

La rédaction reçoit de plus en plus de courrier : cela va de l'étudiante qui

cherche un sujet de maîtrise au professeur qui veut mettre sa biblio à jour

pour le corriger ; mais au-delà de ces routines académiques, des encouragements

et des suggestions qui nous vont droit au coeur.

22222222222222222222222222222222222222222222222222222222222222222222222222222222

{FR, 18/10/98}

Ces derniers temps, cours de F. Rastier à Victoria College (Université de

Toronto) ; conférences aux universités de Laval, Rimouski, Winnipeg,

Vancouver.

22222222222222222222222222222222222222222222222222222222222222222222222222222222

{FR, 18/10/98}

SEMINAIRE

Université PARIS VII &

Institut NAtional des Langues et Civilisations Orientales

Conférences de sémantique

année 1998-1999

François RASTIER

Directeur de recherche

INaLF-CNRS

Premier semestre

________________

Université Paris VII (Jussieu), UFR Sciences des textes et documents

Couloir 34-44, deuxième étage (derrière la tour centrale)

Dans le cadre du cours de Franck NEVEU sur la Sémantique des textes

Jeudi 26 novembre, 16h-18h :

La sémantique des textes littéraires

Jeudi 10 décembre, 16h-18h :

Description sémantique et interprétation

Jeudi 14 janvier, 16h-18h :

Les disciplines du texte - De la philologie à l'herméneutique

Second semestre

_______________

Institut national des langues et civilisations orientales

2 rue de Lille, 75007 Paris - Salons de l'Inalco

Jeudi 4 février, 17h-19h :

L'accès sémantique aux banques textuelles

Jeudi 4 mars, 17h-19h :

Les genres textuels : typologie et codage

Jeudi 11 mars, 17h-19h :

Terminologie et lexicologie des textes d'experts

Jeudi 18 mars, 17h-19h :

Textes descriptifs et image documentaire

Ce séminaire ouvert fait également partie des conférences du D.E.A. de

Sciences du Langage de l' École des Hautes Études en Sciences Sociales.

Contact électronique : lpe2@ext.jussieu.fr

22222222222222222222222222222222222222222222222222222222222222222222222222222222

{FR, 18/10/98}

HUMBOLDTIENS DE TOUS LES PAYS...

Séminaire de 3e cycle de Suisse romande 1998-1999

(Linguistique et philosophie)

Lecture plurielle de W. von Humboldt :

«Introduction à l'oeuvre sur le kavi» (1836)

W. von Humboldt, souvent cité et rarement lu, a été à l'origine d'un

bouleversement dans les sciences du langage, en proposant une forme de

comparatisme non génétique, qui aboutit à une typologie des langues et des

cultures extrêmement élaborée. Cette démarche a à la fois inspiré et renouvelé

la philosophie du langage, la psychologie, et, bien évidemment la

linguistique.

Le but de ce séminaire interuniversitaire est d'entrer en contact direct avec

un texte fondateur, dont la lecture sera « plurielle », c'est-à-dire à plusieurs

voix, à partir de positions théoriques différentes.

Il est destiné avant tout aux doctorants et jeunes chercheurs en sciences du

langage, philologie, philosophie, psychologie et anthropologie.

Organisation : en alternance à Lausanne, Genève et Berne

* 5 séances de 3 h suivies d'un repas :

11 nov. (LA); 9 déc. (GE); 10 mars (BE); 14 avril (LA); 19 mai (GE).

* un week-end de deux jours : 6-7 février (Diablerets)

* un colloque international de 2 jours avec des spécialistes et des traducteurs

de Humboldt : 18-19 juin (LA)

Contacts :

* Patrick SERIOT (Université de Lausanne) :

Patrick.Seriot@slav.unil.ch

fax. : 021 / 692 29 35

* René AMACKER (Université de Genève) :

amacker@uni2a.unige.ch

tél. : 022 / 705 70 59

* Annette FRYBA (Université de Berne) :

fax. : 031 / 631 38 18

33333333333333333333333333333333333333333333333333333333333333333333333333333333

Textes electroniques Textes electroniques Textes electroniques Textes

33333333333333333333333333333333333333333333333333333333333333333333333333333333

{FR, 18/10/98}

BEAUX SITES

Jean La Fontaine indexé en texte intégral

_________________________________________

Pour la première fois dans l'histoire littéraire, il est possible d'explorer

l'oeuvre de La Fontaine via un moteur de recherche sur le texte intégral.

Utile aux élèves mais également aux chercheurs, cette initiative devrait faire

école pour d'autres classiques.

Le site regroupe les fables, les contes, les illustrations de ses textes,

des informations sur sa vie, son entourage, son époque, ses portraits.

Enfin, le site propose un logiciel spécifique pour lire toutes les fables.

Soulignons que ce site est réalisé, à ses heures perdues, par un grand

passionné de La Fontaine.

http://www.lafontaine.net

33333333333333333333333333333333333333333333333333333333333333333333333333333333

{FR, 18/10/98}

VOLTAIRE UNLIMITED

Un aficionado a mis un Cédérom Voltaire en vente à prix défiant toute

concurrence (12.000 pages de l'édition Garnier).

http://perso.wanadoo.fr/dboudin/Voltind.htm

Vous y trouverez en ligne des textes polémiques (nombreux).

33333333333333333333333333333333333333333333333333333333333333333333333333333333

{FR, 18/10/98}

O TEMPORA, O MORES !

Le professeur James O'Donnell, de l'Université de Pennsylvanie, a mis sur le

réseau un certain nombre de textes latins, avec ou sans traduction, notamment

des textes de Saint Augustin. L'édition électronique de ces textes offre des

garanties philologiques qui ne sont pas si fréquentes avec les nouveaux

médias. Il y a aussi ses communications et publications disponibles à partir

du même site :

http://ccat.sas.upenn.edu/jod/jod.html

QUELQUES AUTRES ADRESSES

* Oxford Text Archive :

accessible par FTP au serveur ftp.ota.ox.ac.uk (répertoire /pub/ota/)

diffuse à faible coût des textes électronique aussi bien anciens que modernes.

La commande se fait par courrier électronique auprès de Lou Bernard ou Alan

Morrison :

archive@vax.ox.ac.uk

* Electronic Resources for Classicists : Second Generation

est une liste de ressources composée par Maria Pantelia de l'Université du

New Hampshire ; elle est régulièrement actualisée et les ressources présentées

sont bien décrites :

http://www.circe.unh.edu/classics/resources.html

* Rassegna delle Risorse Elettroniche per lo Studio dell'Antichità Classica

est un très bon guide de ressources, lui aussi, composé à l'Université de

Bologne, rédigé en italien uniquement :

http://ecn01.cineca.it/dipartim/stoant/rassegna1/intro.html

33333333333333333333333333333333333333333333333333333333333333333333333333333333

{FR, 18/10/98}

LE SERVEUR SILFIDE

Du lien "STATISTIQUES" dans le menu "Ressources" du serveur Silfide du LORIA,

vous pourrez avoir un aperçu de la quantité de ressources présentes sur le

serveur Silfide.

http://www.loria.fr/projets/Silfide/

Actuellement et indépendamment de la langue, sont présents dans la base

Silfide :

226 textes non codés (signalés)

71 textes codés, soit : 7.337.610 mots, 53.018.758 caractères

A signaler :

* Les "Archives du Monde Diplomatique" de 1994 à 1998 (Français - 3,5 millions

de mots)

* Alice au Pays des Merveilles de Lewis Carroll (Anglais et Français -

~30.000 mots par langue)

Il est maintenant possible d'obtenir des concordances monolingues sur

des termes composés (avec des espaces).

33333333333333333333333333333333333333333333333333333333333333333333333333333333

{FR, 18/10/98}

LA Text Encoding Initiative A UN TOURNANT FINANCIER ET/OU SCIENTIFIQUE

As some readers of this list may be aware, the work of the Text Encoding

Initiative (TEI) has depended on short-term grant funds ever since the project

began in late 1987. While appropriate for a research project, short term

funding is not a secure foundation for the continued maintenance and development

of a standard. The TEI's executive committee has therefore been considering

alternative options for long-term support of the TEI for some time now.

Its current intention is to encourage the establishment of some form of

membership-based consortium in order to secure ongoing funding and

organizational support for the TEI.

The purpose of this note is to inform potentially interested members of the TEI

community about this proposal, to solicit bids for hosting such a consortium,

and to initiate a wider debate about the future of the TEI.

Note: If your institution is interested in bidding to host a TEI consortium,

please contact C. M. Sperberg-McQueen at tei@uic.edu as soon as possible.

Preliminary discussion with some potential hosts is already underway, with the

intention of making a final decision in January 1999.

More information about the TEI is available from its public discussion list at

tei-l@listserv.uic.edu

and its website at

http://www.uic.edu/orgs/tei

Additional background information relating to the consortium proposal is

given below.

Background information

______________________

The Text Encoding Initiative (TEI) is an international cooperative effort to

develop and disseminate guidelines for the encoding and interchange of

machine-readable texts for research. Sponsored by the Association for Computers

and the Humanities (ACH), the Association for Computational Linguistics (ACL),

and the Association for Literary and Linguistic Computing (ALLC), the TEI began

in 1988, published drafts of its work in 1990 and 1992-93 for comment, and

published the Guidelines for Text Encoding and Interchange (TEI P3) in May 1994.

Since 1994, the TEI has largely concentrated on dissemination activities, such

as workshops and publications. Its proposals are internationally recognized as

essential material for anyone currently considering serious academic work with

electronic texts of any kind.

However, its Guidelines are now, after four years, in serious need of revision

and extension. A new round of technical work was carried out in 1996-7, largely

relying on volunteer effort and residual funding. This work has yet to be

published. In addition, the TEI has recently chartered several new work groups

to address in depth some specific subject areas in which the existing Guidelines

are clearly incomplete or inadequate. A formal mechanism exists for these

groups to report their recommendations, but incorporating them into a revision

of the Guidelines will require further editorial and dissemination effort.

As one specific example, the TEI has been heavily involved in the development

of the Extensible Markup Language (XML) and related specifications. The editors

of the TEI both participated in the design of XML, and one also served as a

co-editor of the XML specification; the TEI's extended-pointer notation has

been taken as the basis for the Xpointer language; the TEI's tag-set

documentation will be part of the input to the deliberations of the new XML

Schema and Datatyping Work Group sponsored by the World Wide Web Consortium.

Yet while there has been such discussion of the need to adjust the current

TEI DTD to take account of XML and related specifications, and although the

relevant TEI work group has begun identifying the required technical changes,

no infrastructure exists for publication and dissemination of the results of

that work.

[...]

It seems clear that the maintenance of complex technical specifications like

the TEI Guidelines is hard or impossible with at least some level of ongoing

technical and editorial work. Editorial work must be funded, and there are

inevitable travel costs both in the development work, and in the dissemination

activities necessary to keep the TEI Guidelines up to date and usable by the

community they were created to benefit. The organizational structure of the

TEI, originally intended for a fixed-term project, must also be adapted to

serve its new role as an ongoing service effort.

The TEI executive committee has been discussing these issues for some time and

has tentatively concluded that an appropriate funding model would be to

establish a membership-based consortium, the object of which will be to support

the ongoing maintenance and development of the TEI as well as to organize

related dissemination activities. The exact focus of such a consortium, the

likely scope of its activities, and its relationship with the original

sponsoring organizations are all yet to be determined. The executive committee

seeks input from the community of those engaged in computer-assisted work with

textual material, to confirm this decision and to help decide the many

questions it leaves unanswered.

[...]

C. M. Sperberg-McQueen (University of Illinois at Chicago)

Lou Burnard (Oxford University)

33333333333333333333333333333333333333333333333333333333333333333333333333333333

{FR, 18/10/98}

LES BEAUX YEUX D'ELTA

Elta Software Initiative.

Elta is a collaborative effort to encourage and support the development of

software tools for the analysis, retrieval and manipulation of electronic

texts. Our focus (at least initially) is on tools to support the needs of

the humanities computing community, but we hope our results are useful for

anyone interested in computer processing of texts marked up with SGML and

XML.

We have organized Elta in response to continued interest and need for such

software, most recently expressed at the birds-of-a-feather session at

ALLC/ACH'98 in Debrecen. At this time Elta provides Web resources and an

email list to support those interested in the Initiative's goals for

promoting software development.

The Web site for Elta is :

http://www.cse.fau.edu/~tom/elta

There is a mirror site in at :

http://www.kcl.ac.uk/humanities/cch/elta

which may provide better response for European users.

The initiative is open to all, and participants become involved by :

a) subscribing to the email discussion list;

b) describing their interests and activities in the text software area on

the Web site's discussion forums ;

c) and by attempting to collaborate and/or cooperate with others in this

area in order to produce better software more quickly.

Anyone (software developer or not) is welcome to visit the site and leave a

message describing user needs for text analysis software in the "user

requirements" area.

"Elta" stands for "encoded literary text analysis", and is the Old Norse

word meaning "to knead" or "to work".

We hope that Elta will contribute to those developing a set of modern tools

with similar capabilities to past and existing text analysis tools, such as

OCP (The Oxford Concordance Program), Tustep, TACT, and similar tools. A

number of needs for modern versions of such tools have been discussed :

sharing common user and data interfaces ; support for SGML, XML and TEI

standards for text mark-up ; use of modern windowed operating systems (like

Windows) ; and, when appropriate support of client-server and distributed

models of interaction (like the Web).

If you're interested, please visit the Web site, and consider joining the

email list. Any suggestions about the project and its goals may be posted at

the Web site or emailed to John or me (see below). We will make occasional

reports to Humanist on the project's progress.

Dr. Tom Horton (Florida Atlantic University)

tom@cse.fau.edu

John Bradley (King's College London)

john.bradley@kcl.ac.uk

33333333333333333333333333333333333333333333333333333333333333333333333333333333

{FR, 18/10/98}

PRESENTATION DU PROJET DE RECHERCHE :

Le logiciel Hyperbase-Enseignement et

la banque textuelle Batelier

équipe Sémantique des textes (lpe2@ext.jussieu.fr)

Ce projet de recherche vient de faire l'objet d'un contrat avec le Ministère

de l'Education Nationale. L'expérimentation pédagogique, dans une vingtaine

d'établissements, commence en novembre.

- Présentation générale et résumé du cahier des charges (document abrégé)

Après le rouleau et le codex, le numérique ouvre une troisième époque de

l'écrit, caractérisée par l'accès immédiat au corpus et la lecture

non-linéaire. Dans son principe, l'accès immédiat au corpus permet

d'envisager l'analyse thématique assistée, l'étude de la stéréotypie et de

la canonicité sémantiques, l'essor des techniques de différenciation et de

caractérisation de textes et de sous-corpus.

Par ailleurs, la lecture non linéaire permet des parcours interprétatifs

inédits et par là sans doute un surplus de sens. En milieu scolaire, elle

contribue à renouveler les pratiques pédagogiques en permettant l'accès

direct aux documents, des recherches diversifiées sur des données

textuelles importantes, en même temps qu'elle familiarise les jeunes avec

les banques numérisées.

[...]

La banque textuelle Frantext de L'Institut National de la Langue Française

(Inalf) est la plus importante banque de textes français(plus de 2. 800

oeuvres). Sa mise à disposition aussi aisée que possible à l'intention du

public scolaire semble une priorité. Or, elle est maintenant accessible par

internet, et son ergonomie a progressé.

Par ailleurs, le logiciel Hyperbase développé par Etienne Brunet (Inalf)

est maintenant disponible en multistandard : ses fonctions, plus évoluées

que celles de Frantext, permettent des travaux différenciés. Elles se

divisent en quatre groupes :

(i) Les fonctions de sélection (par auteur, par oeuvre, par groupe d'oeuvres).

(ii) Les fonctions de recherche : On peut aussi interroger par un préfixe,

un suffixe, un infixe, un lemme, une chaîne de caractères, une liste de

mots, etc.

(iii) Les fonctions lexicométriques et statistiques : on peut créer le

dictionnaire de tous les mots d'une ¦uvre, l'index de ses noms propres, la

liste de ses hapax, etc. Des traitements plus évolués : histogrammes de

distribution, analyse factorielle sont rendus très simples par la création

de tableaux et graphiques.

(iv) Les fonctions de parcours : par exemple, en cliquant sur un mot, on

peut accéder au contexte de toutes ses autres occurrences dans le texte en

lecture.

I. Public et destination

A. Destination

Le produit Hyperbase-Enseignement est consacré prioritairement à la

lecture, détaillée et cursive. Dans son développement, il inclut des

fonctions utilisables dans un cours de langue, mais le point de départ

demeure le texte.

Le produit est destiné prioritairement à l'enseignement secondaire

français, mais il n'est pas exclu qu'il puisse être utilisé dans le

primaire (fonctions simples) et dans le supérieur (fonctions complexes),

notamment pour l'enseignement du français à l'étranger.

L'accès est le même quel que soit l'utilisateur : simplement, les textes

et les fonctions feront l'objet d'une évaluation en termes de niveau de

difficulté. Les tests seront étendus à différents types d'établissements :

collèges, lycées, ou de "filières" : enseignement professionnel, etc.

B. Articulation avec les pratiques pédagogiques

On peut certes mettre à disposition des enseignants et des élèves une

banque de textes, et l'agrémenter de liens permettant de passer d'un texte

à l'autre ou d'un auteur à l'autre. Mais ce n'est qu'une première étape,

car il ne s'agit pas ou pas seulement de constituer un vaste manuel, mais :

(i) d'adapter les modes de lecture à ce nouveau support, en permettant

outre la lecture continue ou ponctuelle (avec accès à des documents

annexes) des lectures non-linéaires, des sélections thématiques, etc.

(ii) de fournir des outils de parcours : lexicaux (sélection des noms

propres, des mots rares), thématiques (sélection des passages contenant

des corrélats), guide de lecture et d'interprétation (soulignement ou

surbrillance des mots caractéristiques d'un passage, d'une oeuvre, d'un

auteur, d'une période).

Par ailleurs, l'articulation entre cours de langue et cours de littérature

fera l'objet d'un soin particulier : l'accès à une grammaire ne suffit pas,

il faut encore que le produit permette de faire un cours, avec des

exercices, etc.

Tous les résultats de recherche sont immédiatement sauvegardés dans des

fichiers spécifiques, ou imprimés. Cela permet aux élèves, après le travail

par demi-groupes en salle informatique, de produire les documents qu'ils

exploiteront par la suite en classe entière.

C. Phase de test et accompagnement pédagogique

Il ne suffit pas de mettre à disposition des textes, mais il convient de

donner des exemples de recherches commentées, de faire des démonstrations,

de rédiger un petit guide d'utilisation et des exercices, voire de former

des formateurs à la randonnée dans le corpus. Ce sera l'objet, dès le

démarrage effectif du projet, d'une coordination avec les enseignants

volontaires.

La présentation des résultats et l'ergonomie générale doivent faire l'objet

d'un travail spécifique : on ne peut demander à l'utilisateur que sa

requête. Il est évident que le produit doit être adapté aux utilisateurs et

non l'inverse.

Le projet a été présenté devant divers organismes pédagogiques (Instituts

universitaires de formation des maîtres, centres régionaux de documentation

pédagogique).

[...]

II. Le corpus de la banque textuelle BATELIER

La décision a été prise de constituer un national corpus de textes

téléchargeables : BATELIER (BAnque de TExtes LIttéraires pour l'Enseignement

et la Recherche).

La banque Frantext a été conçue pour représenter l'ensemble de la langue

française, et fournir des exemples utilisés par le Trésor de la langue

française (TLF), mais non comme un corpus de textes. Si sa consultation

fournit d'utiles références, sa fiabilité doit être améliorée (coquilles

trop nombreuses, textes mal classés, éditions parfois peu sûres).

Le corpus BATELIER, établi en coopération entre les éditions Champion et

l'INaLF à partir de leurs fonds et de nouvelles saisies, obéit aux normes

philologiques et éditoriales les plus strictes.

Un première série de soixante textes est livrée en novembre 1998.

Le développement progressif de BATELIER, étendu sur plusieurs années,

permettra de pourvoir la France d'un corpus littéraire de référence

incontestable, et secondairement d'améliorer la qualité générale de la

banque Frantext.

1. Les critères

Il est choisi en fonction des prescriptions effectives (programmes,

sommaires d'anthologies), mais en ménageant une place aux oeuvres peu

connues de grands auteurs, comme aux méconnus célèbres et aux auteurs

injustement oubliés. L'enseignant doit pouvoir retrouver les oeuvres

incontournables, mais aussi en découvrir d'autres, inaccessibles en édition

scolaire.

La première place est donnée à la littérature. Ne sont pas retenues, dans

un premier temps du moins, les oeuvres traduites et les ouvrages

spécifiquement destinés aux teen-agers.

Le corpus est constitué principalement d'une sélection, sur quatre siècles,

des trois "genres" majeurs : roman, poésie, théâtre. Dans un premier temps,

deux cents oeuvres littéraires intégrales seront retenues. Dans un second

temps, le corpus sera étendu à de bons échantillons de genres dits mineurs,

qu'ils soient littéraires ou non : journal, chansons. Comme tout corpus

reflète un point de vue, les choix opérés seront justifiés.

Les éditeurs s'engagent à respecter la qualité philologique (on sait que

les textes électroniques sont trop souvent inférieurs aux éditions papier

(erreurs de saisie, diacritiques incorrects, etc.). Le principe retenu est

de fournir le texte de la dernière édition parue du vivant de l'auteur.

2. L'interrogation

L'utilisateur pourra interroger le corpus entier (par exemple pour des

leçons de grammaire) mais aussi et surtout des sous-corpus : par genre, par

tranche chronologique, par auteur. Ces restrictions sont naturellement

combinables : on peut par exemple demander toutes les oeuvres d'un auteur

dans telle tranche chronologique.

La définition de sous-corpus donne à l'utilisateur une grande latitude, et

lui permet de caractériser un sous-corpus par rapport à un corpus de

référence, ou encore de comparer des sous-corpus entre eux.

3. L'évolution

Le corpus est ouvert. L'enseignant peut aisément intégrer au corpus tout

texte de son choix : dossier pédagogique, travaux réalisés en classe,

etc.

Ces textes peuvent faire l'objet des types de parcours et des mêmes

opérations que ceux du corpus de base.

[...]

4. La documentation et l'apparat critique

Une chronologie synoptique, permettra l'interrogation par siècle, par

décennie, par année, ou par toute étendue chronologique spécifiée par

l'utilisateur.

On proposera des notices, mais sans l'ambition de remplacer les manuels.

Les notices prennent le principe d'éclairer l'¦uvre non seulement par

l'histoire sociale, mais par l'histoire de l'art : un portrait contemporain

ou une carte postale d'époque valent non seulement comme document, mais par

le mode de représentation qu'ils concrétisent.

D'autres éclaircissements seront acquis par la consultation des

dictionnaires d'époque, un ou deux par siècle, inclus dans le produit - ils

permettront en outre des recherches ponctuelles sur l'histoire du

vocabulaire (voire de la lexicographie).

On évitera les notes interventionnistes qui orientent par trop la lecture

(cf. « Montrez comment le vers impair évoque le vol de la mouette et les

mouvements de l'âme » ).

III. Les outils et les traitements

Les grandes banques textuelles dans le monde ne permettent qu'un accès

limité pour l'essentiel au recueil d'attestations lexicales et de

contextes. Hormis les corpus déjà étiquetés (qui sont assez restreints),

les traitements possibles restent limités : dénombrement de signes ou de

caractères, interrogation par lemme ou chaîne de caractères, fréquences

lexicales, sélection d'un sous-corpus.

Le projet Hyperbase-Enseignement entend mettre à la disposition des

utilisateurs une gamme d'outils, classiques ou nouveaux, pour permettre

d'étendre et de varier la gamme des traitements possibles. On peut

distinguer :

(i) Les outils documentaires : sommaire et bibliographie.

(ii) Les outils d'étiquetage : morphologique (lemmatisation),

morphosyntaxique

(parties du discours), sémantique (catégorisation par domaines (ex. chimie)

ou par dimensions (ex. action).

(iii) Les outils d'aide à l'information : dictionnaire simple, 5-65) - cf. SdT-Paris).

Titre de la thèse :

Construction d'ontologies à partir de textes techniques -

Application aux systèmes documentaires.

Mots-clés : ingénierie des connaissances, ontologie régionale, traitement

automatique des langues, sémantique, hypertexte.

***********

Résumé [du résumé] de la thèse :

Notre problématique est la construction d'ontologies régionales, c'est à dire

relatives à un domaine donné, à partir de textes techniques. Les concepts,

organisés en réseau, sont reliés à des expressions linguistiques et au corpus

à partir duquel ils ont été construits.

La thèse s'est déroulée à la Direction des Etudes et Recherches d'EDF dans

le cadre des recherches sur les « Systèmes de Consultation de Documentation

Technique » (SCDT). Ces systèmes permettent la consultation de documents

techniques de taille moyenne (quelques centaines de pages) utilisés par les

ingénieurs et techniciens dans le cadre d'une activité bien déterminée. Un SCDT

se présente sous la forme d'un hypertexte contenant quatre modes d'accès à

l'information : une table des matières, une recherche en texte intégral et deux

index, l'un représentant les concepts du domaine et l'autre les tâches de

l'utilisateur. L'ontologie régionale que nous avons construite a servi à

élaborer un index du domaine qui a été intégré dans le système documentaire.

Notre méthodologie, baptisée « analyse conceptuelle interactive » (ACI), adopte

des principes issus de la sémantique différentielle de F. Rastier. L'ACI

comporte deux phases : une phase d'amorçage, l'analyse macroscopique, et une

phase itérative de raffinement, l'analyse microscopique. L'ACI intègre

efficacement la dimension humaine représentée par le binôme cogniticien -

expert. Notre méthodologie est entièrement fondée sur le corpus, dans le sens

où elle ne fait pas appel à des ressources sémantiques ou conceptuelles

externes.

Deux outils informatiques ont été développés dans le cadre de la thèse :

(1) LEXICLASS, outil de classification automatique d'expressions linguistiques

en fonction de leurs relations syntaxiques ;

(2) les outils « d'induction de structures conceptuelles ».

Ces outils, indépendants du domaine, ont été validés sur plusieurs corpus

concernant des domaines techniques différents (planification des réseaux

électriques, génie logiciel, conception des centrales nucléaires).

***********

{FR, 29/09/98}

Note de François Rastier :

La présentation est très soignée et il ne manque qu'un index.

L'information est convenable et bien utilisée. Toute la discussion est bien

conduite : il s'agit d'un travail parfaitement abouti tant sur le plan

théorique que sur le plan pratique.

Quant au propos général, je m'attacherai d'abord au chapitre premier pour

contester le choix du concept d'ontologie pour caractériser les structures

lexicales d'un domaine. Ce reliquat de la sémantique dénotationnelle ne

correspond pas aux choix théoriques opérés ; il n'a de fait, depuis Bachimont,

qu'une fonction "politique" : ne pas heurter les habitudes terminologiques de

la collectivité de l'IA. Soit, mais le recours aux ontologies régionales de

Husserl pour caractériser la sémantique des domaines techniques conduit à

réintroduire une forme de métaphysique au moment même où l'analyse textuelle

permet d'en sortir.

Cette réserve faite, l'essentiel demeure que la méthode suivie et l'outil mis

au point ouvrent des perspectives extrêmement intéressantes (et plus que

prometteuses, puisque les promesses sont ici tenues), pour la constitution

assistée de lexiques structurés dans les domaines les plus divers.

On aurait aimé un présentation technique plus approfondie du système Lexiclass.

Il me semble que la thèse de Houssem Assadi est un exemplaire typique de la

catégorie des bonnes thèses. Je ne puis participer à la délibération, mais j'y

pousserais les enchères à la hausse.

44444444444444444444444444444444444444444444444444444444444444444444444444444444

{FR, 18/10/98}

UNE REVUE A DECOUVRIR

Outre notre correspondant Bill WINDER (professeur à l'University of British

Columbia, Vancouver) elle est animée par Russ Wooldridge et Willard McCarthy :

c'est CHWP à

http://www.chass.utoronto.ca/epc/chwp/.

On y trouvera plusieurs articles sur le système TACT.

55555555555555555555555555555555555555555555555555555555555555555555555555555555

Colloques Colloques Colloques Colloques Colloques Colloques Colloques Colloques

55555555555555555555555555555555555555555555555555555555555555555555555555555555

{FR, 18/10/98}

COMPUTERS AND THE HUMANITIES

Les dates de la conférence du ACH/ALLC sont à www.ach.org.

Prochaine rencontre : ACH/ALLC'99 will be held at the University of

Virginia from June 9 to 13, 1999.

55555555555555555555555555555555555555555555555555555555555555555555555555555555

{FR, 18/10/98}

COLLOQUE ET RUSE

SATOR

COLLOQUE INTERNATIONAL 1999

XIIIe colloque international de la SATOR :

"DU DOMAINE DE LA RUSE

AUX FRONTIERES DU TOPOS"

Université de Toronto, 12-15 mai 1999

Thématique :

1. Les topoi de la ruse dans les romans de l'Ancien Régime.

2. Les frontières du topos.

Le topos, ne cesse d'alimenter les discussions théoriques. Qu'est-ce au juste

qu'une configuration narrative et comment définir la pertinence de ses

éléments ? Est-il légitime de parler d'un topos "narratif"?

La SATOR sollicite des communications de 20 minutes. Le titre et un résumé

d'une page doivent nous parvenir avant le 15 novembre 1998. La langue du

colloque sera le français.

Centre SATOR / SATORONTO

N. Boursier / M. Jeay / D. Trott / M. Vernet

Robarts Library - 130 St George St. - Toronto, ONTARIO, M5S 3H1 - CANADA

Tel. (416) 946-3190

e-mail : centre.sator@utoronto.ca

ou : nicole.boursier@utoronto.ca

La SATOR vous invite aussi à visiter ses sites sur le WEB :

Toronto : http://www.chass.utoronto.ca:8080/french/sator/

(Vous y trouverez une mise à jour des renseignements concernant le colloque).

Montpellier : http://alor.univ-montp3.fr/SATOR/

55555555555555555555555555555555555555555555555555555555555555555555555555555555

{FR, 18/10/98}

Saussure, Paris-Genève

Regards épistémologiques sur un siècle de linguistique

Organisé par : Institut Ferdinand de Saussure & Université de

Paris-Sorbonne

Date : 14 novembre 1998

Lieu : Salle des Actes, Université de Paris-Sorbonne,

1 rue Victor-Cousin, 75005 Paris

Propos du colloque

Si l'itinéraire de Ferdinand de Saussure, abordant la science du langage par

la linguistique historique, traverse Leipzig et Berlin, c'est avant tout Paris

qui aura été le pôle d'attraction des activités comparatistes de l'auteur du

fameux Mémoire sur le système primitif des voyelles. Celui-ci entre à la

Société de linguistique de Paris à 19 ans. Il affine sa conception du vocalisme

indo-européen dans des travaux publiés par cette société. Il enseignera pendant

dix ans à l'Ecole des Hautes Etudes. Il est l'élève de Bréal, il est le maître

de Meillet ; c'est Paris qui imposera sa marque au jeune Saussure et celui-ci

imposera à son tour la sienne à cette ville où il formera, dans les années

1880, la génération d'une nouvelle école de grammaire comparée.

Les quelque vingt années suivantes - et dernières - de la courte vie du

linguiste s'écoulent en Suisse romande. Se partageant entre son enseignement

genevois et une réflexion solitaire, le comparatiste est devenu un épistémologue

de sa discipline et, du même coup, le penseur de l'avenir de la linguistique.

Les leçons des années 1907-1911 matérialiseront sa pensée visionnaire, et le

Cours de linguistique générale - édité à Lausanne et à Paris - assurera la

transmission posthume de ces leçons.

L'ouvrage de 1916 aura connu un rayonnement international. Son influence ne

s'en est pas moins exercée, dès la première moitié du siècle, tout

particulièrement à Paris : il a servi de référence fondatrice à des oeuvres

comme celles de Benveniste, Guillaume ou Martinet.

Cette influence parisienne du Cours ne s'affaiblira pas après la seconde guerre

mondiale. La réflexion saussurienne continuera à inspirer les linguistes

- jusqu'aujourd'hui - ; elle s 'étendra aux études sémiotiques ou littéraires

(Greimas, Barthes) et à l'anthropologie sociale (Lévi-Strauss) ; elle

rencontrera chez Lacan un lecteur aigu qui en fera l'une des sources de la

théorie de l'inconscient, au côté de celle, freudienne, dont l'auteur des

Ecrits suscite la relecture.

En retour, les penseurs parisiens inspirés par Saussure inspireront des

travaux genevois.

Ainsi se joue, sous l'aile d'un Saussure quelque peu mythifié par le caractère

philologiquement irrésolu d'un Opus magnum qui n'est pas le sien, une riche

partie d'échanges : on peut dire que l'express Paris-Genève - que le Cours

donnait en exemple de l'identité synchronique - aura, quant à l'histoire des

idées linguistiques, été largement fréquenté tout au long du siècle. Le propos

de la présente rencontre est d'éclairer cette fréquentation.

Table ronde

L'héritage linguistique saussurien : Paris contre Genève ?

Si la première moitié du XX° siècle s'est avérée, au regard de la pensée

linguistique de Saussure, une époque d'harmonie sur l'axe Paris-Genève -

ponctuée par l'invitation helvétique faite à E. Benveniste de venir prononcer

la conférence jubilaire « Saussure après un demi siècle » -, les deux

métropoles deviennent à partir des années 60, pour une part au moins,

symboles d'une dichotomie de l'héritage saussurien et, à certains égards,

d'un conflit des interprétations.

En Suisse, autour du Cercle Ferdinand de Saussure, se développe un courant

d'études philologiques du corpus saussurien (Godel, Engler, Amacker). Sur ces

études viendra parfois se greffer la tentation d'une interprétation

« intégriste » : une linguistique « saussurienne » qui s'opposerait aux autres

courants de la science du langage en développement.

A Paris, une nouvelle alliance s'est scellée - Freud, Marx, Saussure -,

générant de tout autres interprétations du Cours de linguistique générale,

et ceci dans l'ignorance, souvent revendiquée, de la philologie des textes

saussuriens. Mais la « renaissance » parisienne des idées de Saussure produira

aussi, en renouant avec la tradition française de philosophie des sciences et

en s'ouvrant à la linguistique nord-américaine, une attention épistémologique

nouvelle à la pensée du linguiste genevois.

La présente table ronde, réunissant protagonistes de ces événements et

historiens de la linguistique, aura pour mission d'éclairer ce point de

l'histoire de l'héritage saussurien.

Programme

9 00 : S. Bouquet.

Introduction

9 15 : R. Engler

La langue, pierre d'achoppement (Saussure et la sémantique entre

Paris et Genève)

10 00 : M.-J. Reichler-Béguelin

Stratégies de (re)construction de la forme et du sens chez Saussure

et chez Benveniste

10 40 : pause

10 55 : M. Arrivé

Saussure, Barthes, Greimas

11 45 : L. de Saussure

Structuralisme et pragmatique à Genève

12 35 : déjeuner

14 30 : M.-C. Capt-Artaud

Bréal, Saussure, Prieto

15 20 : Carol Sanders

Saussure Paris-Genève, vu de Londres

16 10 : pause

16 30 : Table ronde (à laquelle se joignent Claudine Normand et Christian Puech)

L'héritage linguistique saussurien : Paris contre Genève ?

18 00 : Réception informelle

55555555555555555555555555555555555555555555555555555555555555555555555555555555

////////////////////////////////////////////////////////////////////////