?
SÉMANTIQUE
INTERPRÉTATIVE APPLIQUÉE À LA DÉTECTION AUTOMATIQUE
DE DOCUMENTS RACISTES ET
XÉNOPHOBES SUR INTERNET
Mathieu VALETTE
Centre de Recherche en
Ingénierie Multilingue, INaLCO
SOMMAIRE : | ||
1. |
Problématique. |
2 |
2 |
L’intertextualité de l’Internet |
2 |
2.1. |
Racisme et antiracisme, frontières et recouvrements |
3 |
2.2. |
Une approche différentielle des textes |
4 |
3. |
Les critères sémantiques pour la caractérisation |
4 |
3.1. |
Niveau macrosémantique : le global et le local |
4 |
3.2. |
Niveau mésosémantique : les unités textuelles |
7 |
3.3. |
Niveau microsémantique : la composition des lexies |
11 |
4. |
Analyse multicritère et système multi-agents |
12 |
5. |
Conclusion |
14 |
6. |
Post-Scriptum |
14 |
7. |
Bibliographie |
15 |
Télécharger
le fichier
Avertissement : Ce
texte est au format PDF. Munissez-vous d’Acrobat Reader
RÉSUMÉ : La demande pressante des institutions en matière de protection des usagers contre les contenus illicites ou préjudiciables sur Internet (racisme, xénophobie, pédophilie) invite à dépasser les systèmes de filtrage automatique conventionnels basés sur des listes de mots-clés ou des annuaires d’adresses préétablies, peu efficaces et exigeant de fréquentes mises à jour. PRINCIP, la plate-forme multilingue de détection de pages Web racistes dont nous présentons quelques aspects, met en jeu une analyse sémantique globale, multicritère, et différentielle des documents. Elle repose à la fois sur les propositions théoriques de la sémantique interprétative et les possibilités offertes par l’implémentation dans un système multi-agents, tout en se démarquant des approches ontologiques classiques.
ABSTRACT: The authorities' pressing needs regarding Web-users' protection against illegal or abusive content on the Net -racism, xenophobia, paedophilia- have implied setting aside conventional key-word-based filtering systems as well as black lists, given their lack of efficiency and the need for frequent updating. PRINCIP, the multilingual platform for filtering racist pages on the Web is based on a global, multi-criteria differential semantic analysis of Web pages based on the breakthroughs of interpretative semantics as well as the opportunities arising from implementation in a Multi-Agent System, in contrast to conventional ontological approaches.
NB. Une version légèrement étendue de ce texte a paru dans Approches Sémantiques du Document Numérique, Actes du 7e Colloque International sur le Document Electronique, 22-25 juin 2004, Patrice Enjalbert et Mauro Gaio (éds.), 2004, p. 215-230.
Vous pouvez adresser vos commentaires et suggestions à : mathieu.valette@free.fr
Mis à jour en décémbre 2004.