DE LA SÉMANTIQUE DES TEXTES AU WEB SÉMANTIQUE
L'édition scientifique
sur le web : quel avenir ? [*]

Rossitza KYHENG
Université Paris 10

Entire literature available to every researcher for free, and forever.

Steven Harnad

Nous définissons le libre accès comme une source universelle de la connaissance humaine et du patrimoine culturel ayant recueilli l’approbation de la communauté scientifique.

Déclaration de Berlin

1. Introduction

Depuis une dizaine d'années chercheurs et enseignants du monde entier se mobilisent dans un large mouvement pour le libre accès aux textes de la recherche scientifique. Les plus fortes expressions de ce mouvement dans l'espace européen ont été l'Initiative de Budapest pour le libre accès à la recherche (1-2 décembre 2001), la Déclaration de Berlin sur le libre accès à la connaissance dans les sciences (le 22-23 octobre 2003), et les rencontres de travail qui ont suivi cette dernière : Berlin 2 : Steps Toward Implementation of the Berlin Declaration on Open Access to Knowledge in the Sciences and Humanities (le 12-13 mai 2004), et Berlin 3 : Progress in Implementing the Berlin Declaration on Open Access to Knowledge in the Sciences and Humanities (le 28 février-1er mars 2005).

Steven Harnad remarquait en 1991 [1] que l'écriture électronique était, après le langage, l'écriture et l'imprimerie, la quatrième révolution cognitive de l'humanité. Depuis l'avènement de l'Internet notre société moderne subit une mutation majeure que les scientifiques sont les premiers à reconnaître (comme ils l'ont toujours été dans le passé), en signalant les nouvelles dimensions qui s'offrent à la pensée humaine. C'est cette transformation radicale du cycle des connaissances scientifiques qui est à la base de la Déclaration de Berlin, dont le préambule énonce la relation entre les possibilités technologiques de l'Internet et la constitution d'une "représentation globale et interactive de la connaissance humaine" :

La constitution de cette "base de connaissance globale" est envisagée comme une contribution personnelle et institutionnelle à la fois, par l'engagement de tout un chacun de concéder à tous les utilisateurs "un droit gratuit, irrévocable et mondial " d’accéder à son œuvre, et par la publication électronique de cette oeuvre dans une archive en ligne, "archive gérée et entretenue par une institution académique, une société savante, une administration publique, ou un organisme établi ayant pour but d’assurer le libre accès, la distribution non restrictive, l’interopérabilté et l’archivage à long terme" (Déclaration de Berlin, section Définition d’une contribution au libre accès).

Le concept d'archive ouverte, peu importe sous quelle forme cette notion sera exprimée - "archive électronique", "archive scientifique", "archive en libre accès" ou autre chose -, a une signification importante : il indique un changement crucial dans la conception même de l'Internet, du moins dans sa dimension de "bibliothèque" scientifique. Avec les projets d'archives ouvertes, "l'époque Internet" entre dans un nouvel âge : si l'âge précédent était l'âge de Bouvard et Pécuchet, ou celui d’un certain dilettantisme et d'une collecte de connaissances plus ou moins aléatoire, on peut donc espérer entrer dans l'âge de l'évaluation experte, de la classification et du catalogage, du complètement, de la création d'interfaces fédératrices. Réussir l'archivage compétent des savoirs et les rendre accessibles au monde entier, telle est la grande tâche de notre temps. Il n'est pas étonnant que certains termes tels que pertinence, évaluation, visibilité, métadonnées, libre accès, archives ouvertes soient récurrents dans les débats actuels.


2. La visibilité de la publication scientifique

On sait que la publication scientifique diffère radicalement de toute autre publication par sa vocation : le chercheur ne cherche pas de bénéfices financiers, mais une reconnaissance auprès de ses pairs qui accréditent et valident son travail intellectuel. L'édition scientifique appartient en quelque sorte au modus exsistendi de l'univers de la science : un chercheur qui ne publie pas signe son arrêt de mort scientifique. Mais pour être validée la publication scientifique doit d'abord être visible.

Bien que l'édition électronique ait facilité l'accès à la publication en général, elle n'a pas résolu, pour autant, les problèmes de visibilité : on peut avoir des milliers de pages sur un thème quelconque quelque part sur le Net, et ne pas se douter de leur existence. Trop de visibilité devient, par conséquent, absence de visibilité. En 2001 déjà Krichel et Warner [Krichel & Warner 2001] déploraient cette situation : « Tandis qu'il y a de plus en plus de contenu scientifique librement accessible sur l'Internet, l'organisation de ce contenu est beaucoup moins utile que l'organisation du contenu dans les archives et les bibliothèques officielles ».

Deux conclusions s'imposent : 1° la question de la visibilité des publications scientifiques est de première importance ; 2° les moyens traditionnels de « visibilité » de l'édition papier sont peu applicables à l'édition électronique sur le Web. L'Internet fonctionne sous un autre mode où le facteur humain, primordial dans l'édition papier, est assumé en grande partie par la machine ; mais la machine n'évalue pas les contenus scientifiques, elle se contente "d'interpréter" les métadonnées en exécutant les actions programmées [2]. Ce sont les métadonnées qui permettent aux contenus choisis de devenir visibles sur la Toile où s'effectuera une seconde évaluation, cette fois de la part des utilisateurs. La visibilité sur le Web résulte donc d'un faisceau de variables relatives à l'aspect scientifique (pertinence des contenus choisis pour une problématique particulière), et à l'aspect technique (encodage des métadonnées) de la publication.

Il est évident qu'aucun corpus ni aucune archive scientifique ne peut exister sur le Web sans un minimum de métadonnées, et qui plus est, sans une convention communément admise sur la description et l'encodage des métadonnées [3]. L'unification des métadonnées mène inévitablement au problème des standards, à l'égard desquels les chercheurs restent assez insouciants, au moins dans les sciences humaines et sociales. Les standards sont, évidemment, des systèmes de restrictions, voire d'interdits et d'obligations, bref, tout ce qu'un certain esprit de "libre arbitre" désavoue. Voici quelques faits historiques qui aideront, nous l'espérons, à "exorciser" certaines réticences.

2.1. L'internet et les standards 

Rappelons que l'Internet est devenu possible notamment grâce à des ensembles de standards communs appelés protocoles :

La question des standards n'est donc pas négligeable puisque c'est l'implémentation des standards à l'échelle internationale qui a donné toute leur vitalité à l'Internet et au WEB ; qu'on pense à l'exemple du Minitel qui n'a pas réalisé les développements technologiques nécessaires pour intégrer le protocole TCP/IP, ni le protocole HTTP... Il serait souhaitable que les chercheurs en sciences de l'homme et de la société, s'ils ne veulent pas connaître l'isolement de leur institution ou de leur discipline, prennent conscience du fait que toute communication de données doit passer par le respect des standards internationaux [7], surtout à l'heure actuelle où le chercheur devient un agent important dans la création d'archives scientifiques communes : les contributions des auteurs doivent satisfaire à la compatibilité et aux normes techniques, comme le précise la Déclaration de Berlin :

En commentant les initiatives françaises pour un projet de diffusion des revues en SHS à vocation internationale, Andrea Iacovella précise que "ce type d'action aura pour effet de développer des initiatives analogues à celles des Archives Ouvertes, en matière de normes et de standards" :

2.2. Le Web sémantique et les métadonnées

Comme il a été dit ci-dessus, la question des métadonnées est particulièrement importante pour un Web classique dit "syntaxique", et encore plus pour un Web sémantique où les métadonnées sont au coeur de la recommandation RDF (Resource Description Framework) du W3C.

Concernant le projet de Web sémantique, Picouet et Saglio expliquent : « En ajoutant des métadonnées aux documents, on souhaite rajouter au web la sémantique qui lui manquait » (cf. [Picouet & Saglio 2002], p. 1). Puisqu'une telle affirmation laisse entendre que ce sont les métadonnées qui détiennent la clé de la sémanticité, cela nous oblige d'ouvrir une petite parenthèse.

Dans le Rapport final du Web sémantique Charlet, Laublet et Reynaud (2003) les métadonnées occupent la place centrale dans les trois directions de développement du projet jugées "fondamentales" et impliquant les sciences de l'homme et de la société :

Bien qu'il existe actuellement des conventions sur les métadonnées comme le schéma Dublin Core, un consensus général est à venir, et l'élaboration des standards de métadonnées est ouverte aux contributions. Dans cette perspective, il faudrait envisager la question des métadonnées non seulement dans son aspect technique (indexation), mais aussi dans ses bases théoriques, notamment par un raisonnement sur le socle général des métadonnées sémantiques, les ontologies (sur ce sujet voir [Rastier 2004b]).


3. Les formats et la navigabilité hypertextuelle

La publication sur le Web permet l'utilisation de tous les formats que ce soient des formats relatifs au texte (.XHTML .HTML .SHTML .SGML .XML .RTF .TXT .ODT .DOC .PDF .PS .EPS .TEX .DVI .XLS), à l'image (.PS .EPS .BMP .GIF .JPEG .JPG .PNG .TIFF .TIF .XCF .PSP .TGA), les formats audio (.OGG .FLAC .WMA .AIFF .AIF .MID .MP3 .RA .RAM .WAV) et vidéo (.MOV .QT .MPEG .RA .VDO .VIV), ou multimédia en général (.PPT .DIR .SWF MKV). La seule disposition législative, formulée dans la Loi n° 2004-575 du 21 juin 2004 est d'utiliser des standards ouverts (art. 6, art. 4) [8].

Excursus : Les pièges du format PDF

Le Portable Document Format, un format propriétaire très utilisé actuellement par les éditeurs de revues scientifiques, est un excellent format, permettant une navigation hypertextuelle et assurant une fixation de la mise en page qui facilite l'impression des documents. Cependant la première de ses qualités n'est utilisée que très rarement. Pour nous en assurer nous avons observé le site d'"édition électronique scientifique" des revues en sciences de l'homme et de la société, Revues.org, qui héberge certaines revues, et référence d'autres revues et sites institutionnels. Voici le bilan des formats utilisés :

Aucune des revues qui utilisent le format PDF ne propose des fichiers permettant une navigation hypertextuelle, même pour les publications qui traitent cette problématique, comme celle d'Ana Pano Alaman : Le lien dans l'hypertexte de fiction: ouverture et clôture dans un récit multiple, Lexicometrica, 2004, n°5.

Ces observations portent à croire que les éditeurs de revues scientifiques se contentent d'exploiter la stabilité sécurisante de la mise en page du format PDF, en réduisant ainsi l'édition électronique au simple "basculement" de support - du papier à l’écran. La reproduction fidèle de la publication papier est justifiable, certes, dans le cas de numérisation d'anciennes publications comme le fait Gallica, mais elle a peu de raisons d'être pour les publications du XXIe siècle. Comme cette attitude relève du caractère transitoire de la période que nous traversons, nous continuerons cette réflexion dans la section suivante.


4. Le passage de l'édition papier à l'édition électronique : une période transitoire

Le passage de l'édition papier à l'édition électronique est une transition entre deux pratiques éditoriales différentes, et comme telle elle est comparable à toute autre période transitoire dans l'histoire technologique de l'humanité ; qu'on pense plus particulièrement à la transition entre le manuscrit et le livre imprimé au cours de la seconde moitié du XVe siècle, où ce caractère transitoire de la période (1450-1500) se manifeste par la production d'incunables, des livres imprimés et enluminés à la main à la façon des manuscrits. Les spécialistes ont toujours beaucoup de mal à trancher la question : sont-ils des imprimés ou des manuscrits ?

Fig. 3 : Recueil des histoires de Troie de Raoul Lefevre (1466).

Fig. 4 : Commentaires de la Bible de Nicolas de Lyre ( 1471-72)

Toute période transitoire entre deux époques technologiques est marquée par une certaine résistance à l'innovation qu'on cherche à introduire dans les moules des pratiques traditionnelles. Les pratiques scripturales et éditoriales n'y font pas exception : c'est ce qui s'est passé au XVe siècle, par exemple, au niveau de l'orthographe, comme le remarque Baddeley :

Chaque nouvelle technologie apporte une optimisation des pratiques concernées s'exprimant par une croissance du rendement de la production et une plus grande disponibilité des produits : le livre imprimé, on le sait, a augmenté la vitesse de la production éditoriale et rendu les textes multipliables ; par conséquent, ils sont devenus moins coûteux et plus accessibles pour les utilisateurs. La principale raison de l'abandon des incunables - toujours longs à produire et rares - réside justement dans le fait qu'ils ne mettaient pas à profit les nouvelles opportunités de l'impression : bien que les éditeurs du XVe siècle se soient obstinés pendant une cinquantaine d'années à suivre les anciennes pratiques de la technologie du manuscrit qui leur étaient, certes, plus familières, ils ont fini par les abandonner au profit de la nouvelle technologie.

Par rapport au support papier l'édition sur support électronique offre des avantages similaires : hausse du rendement, baisse des coûts, disponibilité accrue. Mais l'édition sur la Toile propose encore plus : d'une part, elle permet une accessibilité immédiate et à l'échelle mondiale, d'autre part, elle ouvre des possibilités extraordinaires d'interactivité des utilisateurs et d'interconnexion des contenus, notamment à travers la navigation hypertextuelle qui est l'essence même du concept de World Wide Web. Il est bien connu qu'un fichier non navigable produit du texte, tandis qu'un fichier navigable produit de l'hypertexte (pour une simulation des deux types de présentation d'une publication, en hypertexte et en texte, voir l'Annexe).  L'hypertexte, selon Étienne Brunet, correspond mieux aux besoins de la "la grille verticale de la mémoire" :

N'oublions pas que l'interactivité que l'hypertexte propose est non seulement un des grands avantages des nouvelles technologies, mais aussi un caractère pertinent du Web : « le web du futur doit être durable, interactif et transparent » (Déclaration de Berlin, Objectifs).


5. Le renouveau des genres

Une nouvelle époque technologique renouvelle inévitablement les pratiques sociales, et donc les discours et les genres, car tout genre est relatif à une pratique sociale :

Pour Moirand il serait normal qu’« au fur et à mesure du surgissement de nouvelles activités ainsi que de nouveaux supports (les médias, l’internet par exemple), on assiste à la recomposition d’une palette différente, dans sa diversité et son hétérogénéité, de genres oraux, écrits, plurisémiotiques » (cf. [Moirand 2003], p. 1).

L'on peut s'attendre donc, d'une part, à l'émergence de nouveaux genres, et d'autre part, à certaines évolutions dans le champ des genres traditionnels. Il est difficile, à cette étape, de faire des déductions concluantes, vu qu'il existe très peu de recherches comparatives traitant la problématique "genres électroniques" versus genres traditionnels [10]. L'on peut citer les études comparatives de Orasan et Krishnamurthy [Orasan & Krishnamurthy 2002] sur les dépliants publicitaires et les spams électroniques, et de Labbe et Marcoccia [Labbe & Marcoccia 2003], [2005] sur les genres épistolaires "pré-numériques" et le courrier électronique. Tandis que Labbe et Marcoccia constatent qu'"en dépit de ses caractéristiques techniques, le E-mail appartient à un genre épistolaire traditionnel : la "lettre brève" (la lettre de forme brève)", Orasan et Krishnamurthy soutiennent que le spam (junk email) dont les caractères morphosyntaxiques et lexicaux diffèrent de ceux du dépliant publicitaire [11], est un genre autonome.

Une suggestion intéressante a été faite par Crowston et Williams [Crowston & Williams 2000] qui, à la suite d'une analyse de 1000 pages web sélectionnées aléatoirement, proposent de distinguer entre genres reproduits : reproduction électronique de genres traditionnels comme la monographie ou l'article scientifique ; genres adaptés : genres électroniques basés sur des genres traditionnels, mais avec des nouveaux éléments, comme la critique cinématographique qui inclut des illustrations vidéo, des formulaires de commande en ligne du DVD ou autres éléments qui n'apparaissent pas dans le genre traditionnel ; et nouveaux genres comme les pages personnelles, les hotlistes, les messages des serveurs comme la fameuse "Error 404". La distribution des ces trois types sur le Web est la suivante :

Fig. 5 : Distribution des genres sur le Web

Les données de cette recherche confirment la dominance des genres traditionnels reproduits (61%) : l'activité créative ne s'exerce que dans 34% des cas (5% de nouvelles créations et 29% d'adaptations) et donc, on peut dire qu'à la fin du XXe siècle, l'impact de la technologie électronique sur les genres ne concernait qu’un tiers de l'espace Web.

Baddeley distinguait, au sujet de l'orthographe, trois périodes pour le passage du manuscrit à l'imprimé : une première période, où l'on s'efforce "d'adapter les nouveaux supports pour avoir des productions qui ressemblent à celles dont on a l'habitude" ; une deuxième période où "on repousse les limites" jusqu'à un nombre non contrôlable de variétés ; une troisième période de "reprise en main" où le contrôle revient sous forme de réglementation des pratiques (cf. [Baddeley 2002], Conclusion). En partageant cet avis nous proposons de voir dans cette évolution les trois étapes de toute période transitoire entre deux époques technologiques :

Vu qu'actuellement les genres traditionnels reproduits continuent de dominer la Toile, mais qu'en même temps les weblogs sont en pleine effervescence [12], on pourrait penser que notre société se trouve quelque part entre l'étape 1 et l'étape 2.

Le fait que l'édition papier continue et continuera d'exister en parallèle avec l'édition électronique, influence, certes, les pratiques éditoriales, mais ce serait une erreur de la considérer comme une référence absolue. L'édition électronique scientifique devrait explorer les horizons ouverts par les nouvelles technologies et reconsidérer les besoins et les possibilités pour pouvoir anticiper la stabilisation des pratiques dans l'avenir.


6. Les enjeux des projets d'archives ouvertes en sciences de l'homme et de la société

Les flottements et les vagues dans l'évolution du Web poussent à mener la réflexion éditoriale au-delà du cadre plus ou moins restreint d'une seule publication scientifique : les projets de création d'archives ouvertes sont déjà un dépassement des limites de l'édition particulière. La création d'archives de la recherche accessibles au monde entier est un grand projet de l'avenir non seulement par son ampleur, mais surtout par sa valeur éthique et scientifique. Bien que l'apport des sciences de l'homme et de la société ne soit pas aussi immédiatement calculable que l'apport des sciences de la vie - l'accessibilité des archives médicales, par exemple, profitera à tous les pays défavorisés qui n'ont pas les moyens d'investir dans la recherche - il n'en est pas moins essentiel : nous sommes tous au seuil d'un grand projet humaniste. Les enjeux sont donc importants et il serait prudent d'essayer d'évaluer les leçons du passé.

6.1. Le modèle anglo-saxon versus le modèle européen : les idées reçues

Plusieurs auteurs suggèrent qu'il existe deux modèles éditoriaux tant au niveau des éditeurs eux-mêmes qu'au niveau de la communauté scientifique : le modèle anglo-saxon serait plus réactif que le modèle européen.

Commençons d'abord par la communauté des enseignants-chercheurs, producteurs et utilisateurs principaux des publications scientifiques. A l'égard de l'édition électronique les anglo-saxons ont été plus réceptifs que les européens, on le sait : l'édition électronique scientifique a été plus rapidement reconnue et adoptée par les communautés scientifiques nord-américaine et australienne, que par la communauté européenne. En 2001, par exemple, les européens gardaient toujours une attitude méfiante à l'égard des publications électroniques, ne serait-ce que par le refus de les citer où l'on peut entrevoir l'attribution tacite d'un statut sous-culturel d'institutions "pas encore vénérables". Il est vrai que les premières recherches sur les réseaux sont issues des milieux universitaires américains (cf. ci-dessus 2.1), mais ce n'est pas une raison suffisante pour expliquer ce phénomène social.

Il n'est pas étonnant que plusieurs auteurs s'appuient sur une vision sociologique de la science, notamment celle de Pierre Bourdieu et/ou celle de Robert Merton - deux auteurs qui reviennent souvent dans le débat actuel sur les archives ouvertes, et dont les conceptions s'opposent radicalement. Pour Bourdieu (cf. [Bourdieu 1975]) la science serait un champ social parmi d'autres, dont l'intérêt essentiel est la lutte du pouvoir [13]. Pour Merton (cf. [Merton 1973) l'ethos de la science serait gouverné par quatre principes fondamentaux : universalisme, (Universalism) communalisme (Communism), désintéressement (Disinterestedness), scepticisme organisé (Organized Skepticism). Autrement dit, Merton et Bourdieu, c'est le désintéressement contre l'intérêt, le communalisme contre le communautarisme et le lobbysme. Dans quelle mesure est-ce vrai ou faux ? les réponses doivent venir des spécialistes, sociologues ou autres, après des analyses approfondies des développements historiques et culturels.

Cependant, en ce qui concerne les éditeurs, les faits sont contradictoires : ce n'est pas le désintéressement qui est à l'honneur dans le modèle anglo-saxon. Si en Europe l'édition scientifique intéresse peu les éditeurs commerciaux (historiquement elle a toujours été menée par des sociétés savantes plus ou moins altruistes), ce n'est pas le cas dans le monde anglo-saxon, dominé par le modèle économique américain. Les éditeurs américains se sont intéressés très tôt aux bénéfices que pouvait rapporter l'édition scientifique - "le nouvel Eldorado des éditeurs" comme l'a appelé très justement Jean-Claude Guédon. L'intérêt commercial de la publication électronique ne leur a pas échappé et ils n'ont pas hésité à l'intégrer dans leur politique éditoriale : là encore le modèle anglo-saxon a été plus réactif que l'européen, quoique pour une mauvaise cause, et entreprenant au point d'envahir les grandes maisons d'édition européennes comme Blackwell, Springer, Brill, Peeters, Elsevier [14], devenus aujourd'hui global publishers. Ainsi "les maisons d’édition commerciales sont parvenues à transformer la révolution numérique en contre-révolution", constatait Guédon en 2001 (cf. [Guédon 2001]).

Mais la philosophie de l'Internet est une "philosophie du partage" et comme la politique éditoriale "à l'américaine" - extrêmement contraignante au niveau des droits d'auteurs et excessivement onéreuse [15] - n'en tenait pas compte, elle a fini par provoquer la mobilisation de la communauté scientifique du monde entier : depuis la "proposition subversive" de Harnad (cf. [Harnad 1994]) de "construire sur les contributions de tout un chacun cette entreprise de collaboration cumulative", une édition scientifique alternative en libre accès s'est mise en place progressivement sous forme d'archives centralisées ou institutionnelles, de bibliothèques numériques [16], de pages personnelles d'enseignants et chercheurs [17]. Il est assez symptomatique que cette édition non-commerciale a été baptisée "littérature grise" tandis que l'édition commerciale a été qualifié de "littérature blanche" (cf. [Schöpfel & Stock 2004]). Aujourd'hui la communauté scientifique est de plus en plus résolue à mettre fin au "blanchiment" des éditeurs commerciaux : les chercheurs ont enfin pris conscience que dans la chaîne de production auteur => éditeur => lecteur où eux-mêmes sont doublement taxés, ils ne sont pas les seules victimes : c'est le progrès de l'humanité qui est en cause. Pour un bilan des initiatives internationales et françaises dans le domaine de l'édition scientifique des SHS nous renvoyons à la publication d'Andrea Iacovella « Les portails de revues en Sciences Humaines et sociales » [Iacovella 2004].

Suivant les tout derniers sondages et contrairement aux idées reçues la volonté des européens de contribuer aux archives ouvertes est aujourd'hui en hausse par rapport aux pays anglo-saxons (cf. [Swan & Brown 2005], p. 46) :

oui

non

Pays européens (EU)

31%

69%

Pays européens (hors EU)

31%

69%

UK

27%

73%

US

27%

73%

Canada

18%

82%

Tab. 1 : Taux d'acceptabilité de l'auto-archivage parmi les chercheurs qui n'ont jamais publié en libre accès.

6.2. Y a-t-il une scission entre Sciences de l'homme et de la société et Sciences, technique et médecine ?

Un autre sujet d'inquiétude dans les sciences de l'homme et de la société est le séparation entre STM et SHS et le constat d'un certain retard de celles-ci :

Certaines expériences inquiétantes dans le passé expliquent les préoccupations actuelles : d'abord les deux premières archives en sciences de l'homme et de la société, EconWPA et CogPrints ont eu des résultats assez décevants (certains parlent d'échec, cf. [Pignard 2003]) face à l'archive de référence dans le domaine des sciences exactes ArXiv.org :

Plusieurs explications ont été proposées : que les chercheurs en sciences de l'homme et de la société seraient moins formés à l'informatique ; qu'ils seraient tributaires des pratiques traditionnelles puisqu’en SHS on privilégie la monographie, et qu'en sciences "dures" on privilégie l'article ; que l'écriture du type monographie est un travail solitaire qui ne cultive pas le sens de partage, etc. Les données statistiques de l'étude de Swan et Brown (cf. [Swan & Brown 2005]) confirment ou infirment certaines hypothèses, et font ressortir d'autres particularités [21]:

Les données statistiques ci-dessus attestent une telle diversité de comportements qu'il serait aberrant de persister à voir dans le regroupement administratif "sciences de l'homme et de la société" un champ homogène. Chartron (2003) avait déjà évoqué cette éventualité et énoncé un avertissement contre les discours trop réducteurs :

En formulant une proposition de redéfinition de la spécificité des sciences humaines et sociales dans un projet fédératif de "sciences de la culture", François Rastier insiste notamment sur la diversité qui, "par contraste avec l’uniformité fondamentale du monde physique, fait la richesse des « mondes » sémiotiques" et présuppose un cosmopolitisme méthodologique :

Au lieu de repenser la création d'archives scientifiques en perpétuant la diversité des disciplines, d'individus et/ou de cultures, une autre approche globale et non différenciée nous est proposée aujourd'hui : en contrepartie des archives centralisées, et pour vaincre la résistance des chercheurs de certaines disciplines, l'on recommande d'orienter l'auto-archivage vers les archives institutionnelles "décentralisées" (archives des universités et des instituts de recherche) ; certains envisagent même l'opportunité de les rendre obligatoires. Ces archives institutionnelles seront inévitablement hétérogènes : en attendant que des réseaux thématiques inter-institutionnels se mettent en place, les contenus scientifiques risquent de rester fragmentés et éparpillés. Cette approche n'est pas la meilleure solution, mais elle pourrait contribuer à la formation d'une culture de partage de la publication électronique, d'autant que la plupart des chercheurs se déclarent favorables à une telle démarche, d'après le sondage de Swan et Brown (cf. tableau 7).

Une troisième solution pourrait réhabiliter la tradition des sociétés savantes par la création d'archives homogènes où chaque spécialité scientifique trouverait un centre d'attraction à sa mesure : par science, par discipline, par champ disciplinaire théorique ou appliqué, voire par théorie. Par exemple, la Rutgers Optimality Archive (créée en 1993) se limite à la seule théorie de l'optimalité, mais pendant ses douze ans d'existence elle a accumulé 752 publications sur le sujet, avec une moyenne approximative des taux mensuel et annuel respectivement de 5 et de 63 articles. Notre propre expérience éditoriale est un témoignage de la réussite de ce genre d'entreprise : la revue électronique TEXTO qui couvre le domaine spécifique de la sémantique textuelle, compte aujourd'hui 520 publications [22] avec une moyenne des taux mensuel et annuel de 5 et de 61 publications, et avec une grande visibilité sur les moteurs de recherche. « Même si les difficultés sont de nature différente, s'approcher d'un "google" propre à chaque spécialité scientifique est un objectif qui semble pertinent », affirmait Chartron en 2003 (cf. [Chartron 2003], p. 12).

L' avantage des archives spécialisées est qu'elles attirent un public expert : la plupart des chercheurs s'intéressent à des domaines spécifiques et préfèrent avoir accès à des collections restreintes mais avec une plus grande concentration de contenus pertinents dans le domaine-cible, plutôt que de devoir faire des recherches dans des archives vastes et hétérogènes ; conséquemment il y a une forte motivation à collaborer aux archives thématiques. En linguistique, par exemple, à l'heure actuelle une publication dans Marges linguistiques ou dans TEXTO semble plus convoitée que dans le volet « Linguistique » de l'archive centralisée HAL-SHS du Centre pour la communication scientifique directe du CNRS, qui en cinq mois d'existence n'a accumulé que 38 publications dont 36 d'un seul auteur. C'est également la raison pour laquelle les chercheurs en sciences humaines déclarent préférer publier dans des sites web (voir tableau 5). Il s'agit donc d'assouplir les démarches, puisque les trois approches – archives centralisées, archives institutionnelles et archives spécialisées - ne sont pas permutables, elles sont complémentaires.


7. En guise de conclusion : archives, corpora, web sémantique

La question de l'homogénéité des archives mène naturellement à la problématique des corpora. Pincemin remarquait en 2003, à juste titre, que le Web n'est pas un corpus [Pincemin 2003]. Nous considérons qu'en revanche, une archive spécialisée sur le Web est un corpus homogène dont l'homogénéité est assurée par l'unité thématique de ses composantes. Inversement, chaque corpus bien construit et dûment annoté est susceptible de devenir une archive par une publication sur le Web et au prix de quelques manipulations techniques simples (notamment au niveau des métadonnées).

De même, au sein du projet de Web sémantique une nouvelle solution s'impose depuis quelques années, malencontreusement appelé « web communautaire ». L'idée est d'accélérer la création du web sémantique par un puzzle de webs locaux et/ou régionaux ; ainsi l'on a vu naître des projets de "webs sémantiques locaux et intranets sémantiques", "web médical", "web muséal" (projet européen MESMUSES), "web sémantique d’entreprise" (WSE), etc., tels qu'ils sont exposés, par exemple, dans le dossier des rapports de recherche "Web sémantique" de l'Association française d'Intelligence Artificielle [Reynaud et al. 2003]. Bien qu'actuellement la recherche sur les web locaux et l'élaboration des archives spécialisées restent deux pôles d'action bien étanches, la similitude entre les deux démarches est évidente : les deux projets cherchent à asseoir leurs objectifs sur les compétences des personnes et des institutions expertes dans un domaine donné. Par conséquent nous considérons que le web sémantique devrait être envisagé comme l'étape ultime d'une chaîne d'élaborations et d'implémentations :

web sémantique

Les relations entre les différentes axes ne sont pas linéaires, mais transversales : chaque axe a ses propres théorisations et outils, et plus ils sont susceptibles de contribuer à la finalité du projet, plus ils sont utiles pour les autres axes de recherche. Plusieurs projets actuels de web sémantique local, par exemple, s'appuient sur une évaluation contextuelle des connaissances à partir d'une traçabilité des usages (requêtes d'utilisateurs), appelés "itinéraire documentaire", "traces documentaires", "parcours" (projet MUSETTE = Modéliser les UsageS et les Tâches pour Tracer l’Expérience, projet MESMUSES, etc). Dans une recherche des parcours des utilisateurs sur le Web menée dans le cadre du projet SensNet, Thomas Beauvisage [Beauvisage 2004] a démontré l'opérationnalité du concept de "parcours", élaboré dans la sémantique interprétative de François Rastier en vue des textes et des corpus (cf. [Rastier 1999], ch. III. Le sens).

Nous affirmons que toute investigation sur le web sémantique doit commencer par une recherche sur les corpus, car c'est là que se trouvent les vrais objets à décrire, les données ; une archive ouverte ou un web sémantique ne fait que pourvoir ces données d'un jeu de métadonnées pour les rendre interopérables dans le cadre d'un environnement spécifique. Bref, le projet d'un web sémantique n'aboutira pas à des résultats concluants sans une volonté de prise en charge d'élaborations plus fines au niveau des corpus (l'archive étant un genre de corpus particulier). Ainsi, pour progresser vers un Web sémantique, il faut d'abord aller vers la sémantique des textes et des corpus.


NOTES

[*] Une version abrégée de cette publication a été présentée à la journée scientifique "Corpus de SHS : Établissement, numérisation, analyses sémantiques", INALCO, le 8 juin 2005.

[1] Harnad, S. Post-Gutenberg Galaxy: The Fourth Revolution in the Means of Production of Knowledge. Public-Access Computer Systems Review, 1991, vol. 2, n°1, p. 39 – 53. Disponible sur : <http://cogprints.org/1580/00/harnad91.postgutenberg.html>. (Consulté le 6/06/2005).

[2] Les métadonnées sont aussi importantes pour l'interprétation des moteurs « de recherche » (Google, Yahoo, etc.), que pour les moteurs « en recherche » (Scirus, OAIster, Citebase Search, Google Scholar). Pour une synthèse voir le site de Frédéric Le Mouel http://perso.wanadoo.fr/frederic.lemouel/Links_fr.html.

[3] Le schéma le plus utilisé pour la description des archives ouvertes est Dublin Core Metadata Element Set (Version 1.1), en vigueur depuis le 20 décembre 2004.

[4] Le premier ordinateur compatible, le IBM 360, est fabriqué en 1964.

[5] Le protocole TCP/IP a été inventé par Vinton Cerf and Robert Kahn une dizaine d'années auparavant, en 1974.

[6] Ce lien relie le site de Fermilab (US) à celui du Centre Européen de la recherche nucléaire (CERN, Genève). C'est un informaticien du CERN, Tim Berners-Lee, qui est le véritable père fondateur du WEB, auteur du protocole HTTP et du langage HTML. Il est également l'auteur du projet de catégorisation des sites scientifiques dans le monde, WWW Virtual Library, et initiateur du projet de Web sémantique.

[7] La référence mondiale en matière de standards est en premier lieu l'Organisation Internationale de Normalisation (ISO). Les standards non définis par ISO sont élaborés et gérés par des consortiums internationaux spécialisés : la référence pour les "web standards" est le World Wide Web Consortium (W3C).
Les consortiums tendent à suivre les normes ISO là où elles existent : le protocole des métadonnées Dublin Core, par exemple, fait appel à différentes normes ISO, comme ISO 8601 qui prescrit l'encodage des dates, ISO 3166 qui gère l'encodage des noms de pays, ou ISO 639  pour les noms de langues ; Dublin Core a été lui-mme intégré en 2003 dans les normes ISO, cf.
ISO 15836:2003.

[8] Les formats ouverts qui appartiennent par définition au domaine public sont recommandables pour des raisons bien pragmatiques : avec le format ouvert, contrairement au format propriétaire, on ne court aucun danger d'être obligé un jour de retirer de grandes parties des corpus, ou, le cas échéant, de payer des royalties.
NB. Adobe Systems, en tant que propriètaire du format PDF, a rendu ses spécifications publiquement disponibles ce qui le transforme en format légalement utilisable en dehors des produits Adobe.

[9] Les résultats de Forestier [Forestier 2005] pour les livres électroniques, obtenus auprès de 13 fournisseurs d'accès aux e-books, dont certains sont des éditeurs de littérature scientifique (Books@ovid, CRC Press, Cyberlibris, Gale Virtual Reference Library, Knovel, NetLibrary, Numilog, Oxford University Press, Safari, Science Direct (Elsevier), Springer, Vector (Insitute of Physics Publishing), Wiley), sont les suivants :

[10] Aussi paradoxal que cela puisse paraître, ce sont les corpus de genres traditionnels qui manquent...

[11] Les résultats des analyses morphosyntaxiques (nombre très réduit des adjectifs et des déterminants, groupes nominaux plus courts, etc.) et lexicales (vocabulaire moins large, plus de répétitions, fréquences hautes des lemmes free, money, investment, credit, fast, internet, email, sex, weight, et miracle) semblent corroborer cette affirmation.

[12] Les weblogs ou blogs, sont devenus un véritable "phénomène de société" depuis 1999 aux Etats-Unis et depuis 2002 en France : au 16 juin 2005 Blogolist indexait 69542 blogs francophones. Les blogs ont l'allure d'un cybercarnet de bord et touchent à plusieurs genres : hotlists, brèves, commentaires, essais, notes de lectures, journaux intimes, revues de presse, journaux alternatifs, recettes de cuisine, signes de zodiac et tout ce que peut créer l'imagination, parfois débordante, de leurs auteurs. "La forme est encore en train de se chercher à l’intersection de l’intime et du public", affirme Francis Pisani (cf. l'article Internet saisi par la folie des « weblogs », Le monde diplomatique, août 2003). Les blogs commencent à attirer l'attention des chercheurs : le colloque Les écritures d’écran (18-19 mai 2005, Aix-en-Provence) a récemment dédié aux blogs une table ronde : "Les blogs : récits de soi, écritures collectives sur le monde, journalisme".

[13] Bourdieu affirme que : "Dans le champ scientifique comme dans le champ des rapports de classes, il n'existe pas d'instance à légitimer les instances de légitimité ; les revendications de légitimité tiennent leur légitimité de la force relative des groupes dont elles expriment les intérêts". (cf. [Bourdieu 1975], p. 97) Plusieurs chercheurs évoquent cette position de Bourdieu dans le débat actuel sur l'édition électronique et les archives ouvertes (cf. Gerini 2005; Pignard 2005, Pignard 2004, Broudoux 2004, Broudoux 2003, Marty 2003, Van Cuyck 2003).

[14] Elsevier, à l'origine une maison d'édition hollandaise, a actuellement une agence aux Pays bas et 24 agences aux USA.

[15] Pour comparer : la revue Langue française (4 numéros) propose un abonnement international pour environ 58 €, la revue américaine Language Learning (4 numéros) pour 267 €.

[16] Un excellent exemple est la bibliothèque électronique "Les classiques des sciences sociales" qui fonctionne depuis 2001 et qui compte déjà 1 373 oeuvres numérisées de 459 auteurs.

[17] Voir, par exemple, le web site "Maupassant par les textes" de Thierry Selva qui a constitué une véritable archive autour de l'oeuvre de cet auteur, avec une numérisation de l'oeuvre intégrale, une base bibliographique, une recherche sur le vocabulaire, des traductions et des articles scientifiques.

[18] Economics Working Paper Archive (EconWPA) est créée le 1 juin 1993 à Washington University (St. Louis).

EconWPA montly submission

Fig. 6. Croissance de EconWPA d'après les données statistiques de l'archive.

NB. Seules sont pris en compte les publications de A à Z en format PDF. Voir la page des statistiques de l'archive disponible sur : <http://econwpa.wustl.edu/>.

[19] L'archive CogPrints est créée le 7 mai 1997 par Steven Harnad ; elle est hébergée par l'université de Southampton.  

CogPrints annual submisson

Fig. 7. Croissance de CogPrints d'après les données de l'archive.

Voir le descriptif annuel de l'archive disponible sur : <http://cogprints.org/view/year/>.

[20] ArXiv.org est la première archive ouverte créée en 1991 par Paul Ginsparg à Los Alamos National Laboratory.

Arxiv.org montly-submission

Fig. 8. Croissance de arXiv.org d'après les statistiques mensuelles de l'archive.

Voir les statistiques mensuelles de l'archive disponible sur : <http://arxiv.org/show_monthly_submissions>.

[21] Cette étude a été mené auprès d'une population de 1296 individus, dont 51% n'ayant aucune expérience des archives. Parmi ceux qui n'ont jamais publié en ligne, 45% sont favorables aux archives ouvertes, 19% leur sont hostiles, et 36% ignorent complètement l'existence et le fonctionnement des archives sous n'importe quelle forme.
NB. Nous utilisons ici, à titre d'exemple, un abrégé des données recueillies par Swan et Brown.

Tab. 2 : Types de productions scientifiques soumises à publication en libre accès.

Monographie

Chapitre
d'ouvrage

Articles
(preprints+postpr.)

Communication

chimie

1

5

33 (23+10)

6

physique

1

7

63 (32+31)

25

mathématiques

4

7

62 (26+36)

26

humanités

4

12

46(29+17)

22

sc.sociales & éducation

8

8

32 (18+14)

17

psychologie

8

8

31 (19+12)

12

sc. de la vie

3

6

28 (21+7)

7

sc. médicales

2

2

20 (15+5)

4

sc. de la Terre

12

3

48 (39+9)

18

[retour au texte]

Tab. 3 : Taux d'acceptabilité de l'archivage en libre accès parmi les chercheurs qui n'ont jamais publié en ligne.

oui

non

chimie

29%

71%

physique

41%

59%

mathématiques

47%

53%

humanités

34%

66%

sc.sociales & éducation

27%

73%

psychologie

28%

72%

sc. de la vie

20%

80%

sc. médicales

14%

86%

sc. de la Terre

38%

62%

[retour au texte]

Tab. 4 : Expérience en auto-archivage.

depuis :

1 an

2-3 ans

3-5 ans

plus de
5 ans

chimie

32

30

19

19

physique

11

25

30

35

mathématiques

14

24

33

29

humanités

22

28

32

18

sc.sociales & éducation

26

37

23

14

psychologie

19

41

22

19

sc. de la vie

20

33

21

26

sc. médicales

23

43

20

15

sc. de la Terre

38

38

12

12

[retour au texte]

Tab. 5 : Type d'activités d'auto-archivage.

type de publication

web page

archives

prepr.

postpr.

prepr.

postpr.

chimie

14

16

25

43

physique

21

36

53

61

mathématiques

33

44

65

58

humanités

43

45

27

40

sc.sociales & éducation

31

30

36

33

psychologie

20

33

16

28

sc. de la vie

12

27

16

33

sc. médicales

25

57

19

35

sc. de la Terre

7

33

20

60

206

321

277

391

[retour au texte]

Tab. 6 : Age des articles de référence.

jusqu'à :

2 ans

5 ans

10 ans

20 ans

50 ans

plus de 50 ans

chimie

7

28

42

21

2

0

physique

5

35

31

22

6

0

mathématiques

4

31

26

26

11

1

humanités

7

22

23

29

14

3

sc.sociales & éducation

12

37

38

12

1

0

psychologie

3

30

45

18

2

2

sc. de la vie

8

39

38

12

3

1

sc. médicales

8

37

39

15

1

1

sc. de la Terre

15

33

33

12

6

0

[retour au texte]

Tab. 7 : Taux d'acceptabilité en SHS de l'auto-archivage en tant qu'obligation imposée par l'institution de rattachement.

Je me conformerais
volontairement

Je me conformerais
à contre-coeur

Je ne me
conformerais pas

Humanités

90%

8%

2%

Sc. sociales & éducation

86%

9%

6%

Psychologie

83%

11%

4%

[retour au texte]

[22] Les publications dans TEXTO ne se limitent pas aux 264 articles, mais comptent aussi 161 chapitres d'ouvrages, 20 comptes-rendus, tutoriels, cours et entretiens, et 75 anciens numéros du bulletin SdT, qui - à leur tour - contiennent plusieurs publications.


BIBLIOGRAPHIE

[Anis 2002]
ANIS, Jacques. Communication électronique scripturale et formes langagières : chats et SMS. In Actes de la Quatrième rencontre Réseaux Humains / Réseaux Technologiques "S'écrire avec les outils d'aujourd'hui" 31 mai-1er juin 2002 [en ligne]. Université de Poitiers. Disponible sur : <http://oav.univ-poitiers.fr/rhrt/2002/actes%202002/jacques%20anis.htm>. (Consulté le 6.06.2005).

[ATALA 2004]
Journée d'étude ATALA "Le traitement automatique des nouvelles formes de communication écrite (e-mails, forums, chats, SMS, etc.)" [en ligne], 5 juin 2004. Disponible sur : <http://www.up.univ-mrs.fr/~veronis/je-nfce/resumes.html>. (Consulté le 6.06.2005).

[Bourdieu 1975]
BOURDIEU, Pierre (1975). La spécificité du champ scientifique et les conditions sociales du progrès de la raison. Sociologie et sociétés, vol. 7, n° 1, mai 1975, p. 91-118. Disponible sur : <http://www.erudit.org/revue/socsoc/1975/v7/n1/001089ar.pdf>. (Consulté le 6.06.2005).

[Baddeley 2002]
BADDELEY, Suzanne. Pratiques de l'écriture au cours des siècles. In Actes de la Quatrième rencontre Réseaux Humains / Réseaux Technologiques "S'écrire avec les outils d'aujourd'hui" 31 mai-1er juin 2002 [en ligne]. Université de Poitiers. Disponible sur : <http://oav.univ-poitiers.fr/rhrt/2002/actes%202002/baddeley.htm>. (Consulté le 6.06.2005).

[Beauvisage 2004]
BEAUVISAGE, Thomas. Sémantique des parcours des utilisateurs sur le Web. Texto ! décembre 2004 [en ligne]. Disponible sur : <http://thomas.beauvisage.free.fr/>. (Consulté le 6.06.2005).

[Brunet 1997]
BRUNET, Étienne. Les liens hypertextuels ou abondance de liens ne nuit pas, Lexicometrica, 1997, n°0 [en ligne]. Disponible sur : <http://www.cavi.univ-paris3.fr/lexicometrica/article/numero0/hypertexte.html>. (Consulté le 6.06.2005).

[Charlet et al. 2003]
CHARLET, Jean, LAUBLET, Philippe, REYNAUD, Chantal. Web sémantique : Rapport final. Action spécifique 32 CNRS / STIC [en ligne]. Décembre 2003. Disponible sur : <http://rtp-doc.enssib.fr/article.php3?id_article=39>. (Consulté le 6.06.2005).

[Chartron 2003]
CHARTRON, Ghislaine. Eléments pour une approche comparée de la publication scientifique. In @rchiveSIC [en ligne]. Communication au Forum Universitaire "La communication scientifique en quatre dimensions". 20 mai 2003. Localisation par domaine : Edition électronique. Disponible sur : <http://archivesic.ccsd.cnrs.fr/sic_00000435.html>. (Consulté le 6.06.2005).

[Crowston & Williams 2000]
CROWSTON, Kevin , WILLIAMS, Marie. Reproduced and emergent genres of communication on the World-Wide Web. In: The Information Society, 2000, vol.16, n°3, p. 201-216. Disponible sur : <http://crowston.syr.edu/papers/genres-journal.html>. (Consulté le 6.06.2005).

[Edition]
Édition électronique : liste par domaine. In @rchiveSIC [en ligne]. Disponible sur : <http://archivesic.ccsd.cnrs.fr/view_sic_edit_fr.html>. (Consulté le 6.06.2005).

[Forestier 2005]
FORESTIER, Catherine. Les offres actuelles de livres électroniques pour l’enseignement supérieur : contenus, types d’accès, modèles économiques. In 2ème journée d’information-débat autour du thème : Le livre électronique dans l’enseignement supérieur : Quels usages ? Marseille, 2 mai 2005 [en ligne]. Disponible sur : <http://www.couperin.org/article.php3?id_article=290>. (Consulté le 6.06.2005).

[Gerini 2005]
GERINI, Christian. L’Open Access ou Paradigme de l’Accès Ouvert Electronique : les nouvelles technologies de l’information et de la communication au service d’une science libre et transparente. In @rchiveSIC [en ligne], 30 avril 2005. Communication, Colloque International de Tunis, 14-16 avril 2005: L'information numérique et les enjeux de la société de l'information. Localisation par domaine : Édition électronique. Disponible sur : <http://archivesic.ccsd.cnrs.fr/sic_00001425.html>. (Consulté le 6.06.2005).

[Guédon 2001]
GUÉDON, Jean-Claude. A l’ombre d’Oldenburg : Bibliothécaires, chercheurs scientifiques, maisons d’édition et le contrôle des publications scientifiques. ARL Meeting, Toronto, Mai 2001. Disponible sur : <doc-iep.univ-lyon2.fr/Edelec/oldenburg-jcguedon.pdf>. (Consulté le 6.06.2005).

[Harnad 1991]
HARNAD, Steven. Post-Gutenberg Galaxy: The Fourth Revolution in the Means of Production of Knowledge. Public-Access Computer Systems Review, 1991, vol. 2, n°1, p. 39 – 53. Disponible sur : <http://cogprints.org/1580/00/harnad91.postgutenberg.html>. (Consulté le 6.06.2005).

[Harnad 1994]
HARNAD, Steven. Scholarly Journals at the Crossroads: A Subversive Proposal for Electronic Publishing. In An Internet Discussion about Scientific and Scholarly Journals and Their Future [en ligne]. Disponible sur : <http://www.arl.org/scomm/subversive/sub01.html>. (Consulté le 6.06.2005).

[Iacovella 2004]
IACOVELLA, Andrea. Les portails de revues en Sciences Humaines et sociales. In @rchiveSIC [en ligne]. Lettre du département SHS du CNRS(69):11-18. 01 mai 2004. Disponible sur : <http://archivesic.ccsd.cnrs.fr/sic_00000980.html>. (Consulté le 6.06.2005).

[Krichel 2000]
KRICHEL Thomas. Working towards an Open Library for Economics: The RePEc project, colloque The Economics and Usage of Digital Library Collections, PEAK, 23-24 mars 2000. Disponible sur : <http://openlib.org/home/krichel/myers.html>. (Consulté le 6.06.2005).

[Krichel & Warner 2001]
KRICHEL, Thomas, WARNER, Simeon M. Disintermediation of Academic Publishing through the Internet: An Intermediate Report from the Front Line. Paper presented at the ICCC/IFIP 5th Conference on Electronic Publishing in Canterbury, UK, July 4 to 7, 2001. Disponible sur : <http://openlib.org/home/krichel/papers/sants.html>. (Consulté le 6.06.2005).

[Kyheng 2003]
KYHENG, Rossitza. La référence bibliographique : norme et praxis. In Texto [en ligne]. Paris : Texto, décembre 2003. Disponible sur : <http://www.revue-texto.net/Reperes/Themes/Kyheng_References.html>. (Consulté le 6.06.2005).

[Labbe & Marcoccia 2003]
LABBE, Hélène, MARCOCCIA, Michel. Tradition épistolaire et médias numériques : du billet au courrier électronique. In A. Betten & M. Dannerer (eds.), Dialogue Analysis IX - Dialogue in Literature and the Media / Selected Papers from the 9th IADA Conference, Salzburg 2003, Tübingen : Niemeyer, 2005, vol. 2, p. 281-292. [abstract] .

[Labbe & Marcoccia 2005]
Communication numérique et continuité des genres : l’exemple du courrier électronique (2005), ici-même.

[Merton 1973]
MERTON, Robert K. The Sociology of Science: Theoretical and Empirical Investigations. Edited by Norman W. Storer. Chicago: University of Chicago Press, 1973. Ch. 13 : The Normative Structure of Science [1942], p. 267-278.

[Moirand 2003]
MOIRAND, Sophie. Quelles catégories descriptives pour la mise au jour des genres du discours ? Journée d'étude "Les genres de l'oral" le 18 avril 2003 [en ligne], Université Lumière Lyon. Disponible sur : <http://gric.univ-lyon2.fr/Equipe1/actes/journees_genre.htm>. (Consulté le 6.06.2005).

[Orasan & Krishnamurthy 2002]
ORASAN, Constantin, KRISHNAMURTHY, Ramesh. A corpus-based investigation of junk emails. Proceedings of The Third International Conference on Language Resources and Evaluation (LREC) 29 – 30 mai 2002. Disponible sur : <http://clg.wlv.ac.uk/papers/show_paper.php?ID=47>. (Consulté le 6.06.2005).

[Peccatte 2005]
PECCATTE, Patrick. Métadonnées: une initiation. In web site de Soft Experience. Dernière mise à jour: 21 mars 2005. Disponible sur : <http://peccatte.karefil.com/software/Metadata.htm>. (Consulté le 6.06.2005).

[Picouet & Saglio 2002]
PICOUET, Philippe, SAGLIO, Jean-Marc. Définition de parcours sur un Web Communautaire [en ligne]. Paris : ENST, mars 2002. Rapport projet GET. Disponible sur : <http://www.infres.enst.fr/people/saglio/etudes/e-parcours/papers/GETe-parcours.pdf>. (Consulté le 6.06.2005).

[Pignard 2003]
PIGNARD, Nathalie. La publication scientifique sur Internet. In @rchiveSIC [en ligne], 18 avril 2005. Article publié dans LE BOEUF Claude et PELISSIER Nicolas (dir.), Communiquer l'information scientifique : éthique du journalisme et stratégies des organisations, Paris, L'Harmattan, 2003, p. 367-387. Disponible sur : <http://archivesic.ccsd.cnrs.fr/sic_00001414.html>. (Consulté le 6.06.2005).

[Pincemin 2003]
PINCEMIN, Bénédicte. Rôle des ontologies pour le Web sémantique : métadonnées ou données ? Journée scientifique « Web Sémantique et Sciences humaines et sociales » [en ligne], Paris-Ivry, 7 mai 2003. Disponible sur : <http://www-lli.univ-paris13.fr/membres/biblio/1035_pincemin_ws_0405.pdf>. (Consulté le 6.06.2005).

[Rastier 1989]
RASTIER, François. Sens et textualité. Paris : Hachette, 1989. Version numérisée in Texto, décembre 2002. Disponible sur <http://www.revue-texto.net/Parutions/Sens-et-textualite/Rastier_sens_et_textualite.html>. (Consulté le 6.06.2005).

[Rastier 1999]
RASTIER, François. De la signification au sens. Pour une sémiotique sans ontologie. Texto ! juin-sept. 2003 [en ligne]. Paru en italien in Eloquio del senso, a cura di Pierluigi Basso e Lucia Corrain, Milan : Costa & Nolan, 1999, p. 213-240. Disponible sur : <http://www.revue-texto.net/Inedits/Rastier/Rastier_Semiotique-ontologie.html>. (Consulté le 6.06.2005).

[Rastier & Pincemin 1999]
RASTIER, François, PINCEMIN, Bénédicte. Des genres à l'intertexte. Cahiers de praxématique, 1999, n°23, p. 90-111.

[Rastier 2000]
RASTIER, François. Humanités et sciences humaines. Texto ! mars 2001 [en ligne]. Texte diffusé sur la liste LaLif, vol. 1, n°1, Décembre 2000. Disponible sur : <http://www.revue-texto.net/Inedits/Rastier/Rastier_Humanites.html>. (Consultée le 6.06.2005).

[Rastier 2001]
RASTIER, François. Eléments de théorie des genres. Texto ! juin 2001 [en ligne]. Disponible sur : <http://www.revue-texto.net/Inedits/Rastier/Rastier_Elements.html>. (Consultée le 6.06.2005).

[Rastier 2004a]
RASTIER, François. Sciences de la culture et post-humanité. Texto ! septembre 2004 [en ligne]. Conférence inaugurale du huitième congrès de l’Association Internationale de sémiotique, Lyon, 7 juillet 2004. Disponible sur : <http://www.revue-texto.net/Inedits/Rastier/Rastier_Post-humanite.html>. (Consultée le 6.06.2005).

[Rastier 2004b]
RASTIER, François. Ontologie(s). Texto ! décembre 2004 [en ligne]. Disponible sur : <http://www.revue-texto.net/Inedits/Rastier/Rastier_Ontologies.html>. (Consulté le 6.06.2005).

[Reynaud et al. 2003]
REYNAUD, Chantal, CHARLET, Jean, LAUBLET, Philippe (coordonnateurs). Dossier Web sémantique, Bulletin de l’AFIA, avril 2003, n° 54. Disponible sur : <http://www.lalic.paris4.sorbonne.fr/stic/articles/websemantique.pdf>. (Consulté le 6.06.2005).

[Schöpfel & Stock 2004]
SCHÖPFEL, Joachim , STOCK, Christiane. Grey Literature in an Open Context: From Certainty to New Challenges. In @rchiveSIC [en ligne], 26 janvier 2004. Communication au GL5 : Fifth International Conference on Grey Literature / 5ème colloque international sur la littérature grise. Disponible sur : <http://archivesic.ccsd.cnrs.fr/sic_00000893.html>. (Consulté le 6.06.2005).

[Swan & Brown 2005]
SWAN, Alma, BROWN, Sheridan. Open access self-archiving: An author study. In web site of JISC Committee for the Information Environment (JCIE), Scholarly Communications Group [en ligne]. May 2005. Disponible sur : <http://www.jisc.ac.uk/uploaded_documents/Open%20Access%20Self%20Archiving-an%20author%20study.pdf>. (Consulté le 6.06.2005).

[Vaillant 1997]
VAILLANT, Pascal. TEXTO! : texte et toile - Quelques éclaircissements techniques et pratiques sur le web et son utilisation, notamment pour l'accès à notre site "TEXTO!". In SdT, vol. 3, n° 8 [en ligne]. 13 octobre 1997. Disponible sur : <http://www.revue-texto.net/Archives/SdT/SdTv3n8.html>. (Consulté le 6.06.2005).


Vous pouvez adresser vos commentaires et suggestions à : rossitza_kyheng@yahoo.com
 

© juin 2005 pour l'édition électronique.

Référence bibliographique: KYHENG, Rossitza. De la sémantique des textes au Web sémantique. Texto! Textes et cultures  [en ligne], juin 2005, vol. X, n°2. Disponible sur : <http://www.revue-TEXTO.net/Redaction/Dossier_EE/Kyheng/Kyheng_Semantique.html>. (Consultée le ...).