Rosenthal : Approche microgénétique du langage et de la perception 3

Le langage se présente toujours dans un certain format, c'est-à-dire sous la forme d'un signal (séquences sonores, formes visuelles, configurations tactiles) modal déterminé. Ses différents formats- auditif, visuel, tactile- ne sont pas strictement équivalents, et si les caractéristiques de chacun sont susceptibles de nous apprendre quelque chose sur le langage [45] cela vaut également pour leurs différences. Les travaux résumés dans ce qui suit n'ont au départ été entrepris que dans le but d'explorer les processus de la compréhension du langage se situant en amont de la désambiguation morpho-syntaxique, de ´concrétiser' en quelque sorte la théorie de la catégorisation lexicale en la rattachant au traitement du signal langagier dans une modalité donnée : la vision. Puisque l'objectif était de spécifier d'une façon détaillée et chronologique les traitements qui, partant d'un signal langagier aboutissent à une interprétation conventionnelle de ce dernier, il fallait aborder la forme physique de ce signal tel qu'il se présente dans la modalité considérée. Et c'est ainsi que les recherches sur la compréhension du langage se sont progressivement transformées en étude des processus perceptifs de la lecture.

Contrairement à la parole où il n'existe pas de séparation temporelle [46] , «des blancs' entre les mots, l'écriture (et l'imprimé) telle que nous la pratiquons aujourd'hui [47] comporte des espaces blancs qui individualisent les mots, leur conférant ainsi un statut de stimuli distincts. Dans une écriture orthographique, les mots sont composés de lettres. Avec quelques vingt-six lettres de l'alphabet nous pouvons composer un nombre quasiment infini de mots. Les lettres forment des mots, les mots forment des phrases, les phrases des paragraphes, des chapitresÖ Il existe ainsi plusieurs niveaux de description qui peuvent intéresser la théorie du traitement perceptif de l'écrit. On peut caractériser les mots, notamment les mots en minuscules comme dans ce texte, à partir des lettres dont ils se composent mais on peut également décrire leur forme globale. Il est sans doute tentant d'appliquer une sorte de ´logique compositionnelle' pour décrire la reconnaissance des mots au cours de la lecture : puisque les mots sont composés de lettres, la reconnaissance des mots doit passer par la reconnaissance de leurs lettres. Et en effet, force est de reconnaître que 26 unités génériques (lettres) sont plus faciles à gérer et à apprendre que quelques dizaines de milliers de formes globales non-génériques (mots). Les recherches modernes sur les processus de la lecture sont indissociables du débat concernant les unités de base de l'analyse visuelle de l'écrit : s'agit-il de mots entiers, de lettres ou encore de leurs traits constitutifs (boucle, barre..)? Les questions de savoir comment de telles unités fixes d'analyse sont traitées et reconnues par le système visuel et si ce dernier est équipé pour procéder de la sorteont toutefois rarement éveillé l'intérêt des spécialistes de la lecture ou de la reconnaissance des mots.

Deux approches de la lecture, l'une globale (parce qu'elle privilégiait le format mot), l'autre analytique (parce qu'elle privilégiait les formats infralexicaux tels que lettres ou leurs traits constitutifs) se sont très tôt cristallisées, et leur rivalité a pavé l'histoire des recherches psychologiques sur la reconnaissance visuelle des mots. L'approche analytique s'est structurée à partir et autour de la réaction (virulente) de Wundt à la publication des Recherches Psychologiques Expérimentales sur la Lecture de Erdmann et Dodge (1898) qui montraient au moyen d'expériences tachistoscopiques que, par unité de temps constante, on reconnaît quatre à cinq fois plus de lettres dans des mots que dans des séquences de lettres sans signification. Ces observations corroboraient les travaux antérieurs de Cattell (1886) qui avaient déjà mis en évidence ce que l'on allait plus tard appeler 'word-superiority effect', à savoir que par exemple le temps nécessaire pour reconnaître un mot est sensiblement plus court que la somme des temps que prend la reconnaissance des lettres individuelles dont ce mot est composé. La réaction de Wundt était compréhensible dans la mesure où ces résultats montraient la pertinence du format lexical (global) dans la lecture et de ce fait étaient en contradiction flagrante avec le fond même de la conception élémentariste des processus mentaux dont Wundt était, aux côtés d'Ebbinghaus, le plus illustre promoteur. Wundt contestait en particulier les méthodes tachistoscopiques utilisées par Cattell et Erdmann et Dodge, et cela même lorsque son propre élève Zeitler a obtenu les mêmes résultats que Cattell tout en suivant les recommandations de son maître [48] . Avec le temps, les conclusions de Cattell et d'Erdmann et Dodge ont été confirmées et consolidées par beaucoup d'autres recherches (cf. Johnson, 1975; Neisser, 1967) . De surcroît, on a montré qu'un mot fréquent est reconnu plus rapidement qu'un mot peu fréquent, même plus court (cf. Solomon & Howes, 1951; Solomon & Postman, 1952) , qu'une lettre est identifiée plus rapidement dans un mot que dans un non-mot (cf. Reicher, 1969; Wheeler, 1970) ou que les propriétés de la forme globale du mot affectent sa reconnaissance, tant sur le plan qualitatif (i.e. type d'erreurs) que quantitatif (i.e. le temps de réaction, cf. par exemple Havens & Foote, 1963) . Tous ces résultats semblaient ainsi parachever la démonstration du caractère erroné de la ´logique compositionnelle' – par exemple, il semblait désormais exclu que les mots soient reconnus au cours de la lecture au moyen d'un processus de reconnaissance séquentielle des lettres- et l'on croyait pouvoir clore le débat concernant les unités de base de l'analyse visuelle de l'écrit (cf. Henderson, 1987; Huey, 1908; Neisser, 1967; Scheerer, 1981; Woodworth, 1938) .

C'est la proposition (faite par quelques auteurs autour de 1975) que la reconnaissance des lettres peut procéder en parallèle qui a permis de relancer l'approche analytique (Adams, 1979; Henderson, 1987; McClelland, 1976) . Plusieurs expériences ont alors été entreprises dans le but explicite de mettre en cause l'hypothèse que la forme globale du mot joue un rôle substantiel dans son identification. Ainsi, on a montré :

- que la reconnaissance des mots, pseudo-mots [49] et non-mots est perturbée d'une façon comparable lorsqu'on mélange les majuscules et les minuscules (cAsE mIxInG Adams, 1979) ;

- qu'il est possible d'obtenir un effet d'amorçage orthographique entre les mots formés à partir des mêmes identités littérales (hand- HAND) mais dont la forme globale est différente (Evett & Humphreys, 1981; Humphreys, Evett, Quinlan, & Besner, 1987) ;

- que le changement du format du mot (target Æ TARGET) au cours de la saccade oculaire n'affecte pas le temps de lecture à haute voix de ce mot (McConkie & Zola, 1979; Rayner, McConkie, & Zola, 1980) .

Ces résultats s'ajoutant à ceux de Paap, Newsome, and Noel (1984) , qui suggéraient que ce n'est pas la ressemblance de la forme des mots mais celle de la forme des lettres qui est à l'origine de la difficulté de détecter certaines erreurs typographiques dans les t‚ches de «corrections d'épreuves' , semblaient ainsi, aux yeux de nombreux auteurs, légitimer définitivement les théories de la lecture dans lesquelles la reconnaissance des lettres (en parallèle) constitue la base sinon exclusive du moins essentielle de la reconnaissance des mots. La quasi-totalité des modèles de reconnaissance visuelle des mots proposés à partir du début des années 1980 adhère à cette vision compositionnelle ou analytique des processus de la lecture (cf. Adams, 1979; Besner & Johnston, 1989; Grainger & Jacobs, 1996; Johnson & Pugh, 1994; Johnston & McClelland, 1980; McClelland & Rumelhart, 1981; Paap, Newsome, McDonald, & Schvaneveldt, 1982) .

Ce rappel historique permet de situer le contexte théorique sur le fond duquel j'allais m'employer à ´concrétiser' la théorie de la catégorisation lexicale à la fin des années 1980. Les modèles les plus influents étaient issus des recherches tachistoscopiques sur la reconnaissance de mots isolés. Ils ignoraient largement les effets du contexte, de la syntaxe et de la sémantique sur la reconnaissance même du mot et de ce fait se qualifiaient difficilement comme des modèles de la lecture. Quant à la reconnaissance du mot, même au sens très limité du terme, ces modèles se bornaient à indiquer l'existence d'un «mécanisme' de reconnaissance des lettres sans spécifier concrètement comment cette reconnaissance s'effectue au niveau visuo-perceptif. Sur bien de plans, l'objectif principal des modèles qui ont joué un rôle déterminant dans ce domaine au cours des 20 dernières années n'était pas tant la description du processus de reconnaissance visuelle des mots ou de la lecture mais celle de l'accès au lexique à partir du stimulus présenté dans la modalité visuelle (voir notamment Henderson, 1987, pour une discussion) . On n'y trouve aucune description des processus censés être mis en úuvre dans l'analyse visuelle et qui permettraient la reconnaissance (en parallèle) des lettres [50] . On n'y trouve pas davantage d'explication de la façon dont peut s'effectuer l'interface entre le traitement purement perceptif et les traitements linguistiques et cognitifs. Pourtant il ne fait désormais aucun doute que ces derniers interviennent avant l'identification explicite du mot (voir les ouvrages édités par Besner & Humphreys, 1991, pour plus de détail; Coltheart, 1987a) . Ainsi, une théorie ou un modèle des processus perceptifs de la lecture se doit de fournir une description de l'interface entre ces différents traitements avant qu'ils n'aient conduit à l'identification du mot.

Les modèles issus des expériences tachistoscopiques avec des mots imprimés présentés isolément me semblaient, par ailleurs, clairement inadaptés pour rendre compte de la lecture de l'écriture manuscrite. Par exemple, les modèles qui postulent que les mots sont reconnus au moyen du traitement en parallèle de toutes les lettres ignorent le fait qu'il est très souvent impossible d'identifier les lettres d'un mot manuscrit sans avoir une hypothèse sur l'identité de ce mot (cf. Parisse, Rosenthal, Imadache, Andreewsky, & Cochu, 1990) . Quelles que soient les spécificités de l'écriture manuscrite et de l'imprimé, la lecture de l'une et de l'autre s'est développée sur la base des mêmes capacités perceptives et de la même pratique du langage.

Enfin, les modèles issus des recherches tachistoscopiques sur les mots isolés ont beaucoup de mal sinon à expliquer, du moins à intégrer les données provenant de l'observation de certains comportements pathologiques en lecture. Il s'agit notamment du comportement des dyslexiques profonds (cf. Coltheart, 1980; Coltheart, Patterson, & Marshall, 1987) . A la suite d'une lésion cérébrale, ces patients sont incapables de reconnaître les lettres de l'alphabet et ne peuvent pas lire les pseudo-mots [51] ou les non-mots. Ils sont néanmoins capables de lire certains mots, avec plus ou moins de difficultés selon leur catégorie grammaticale. Ainsi, alors que les mots fonctionnels, tels qu'articles ou conjonctions sont très rarement lus, les mots-pleins (noms, adjectifs, verbes) posent moins de difficultés, à ceci près que leur lecture est susceptible de se traduire par des paralexies sémantiques (par exemple, lorsque prêtre est énoncé en lecture à la place de église ). Ce comportement appelle trois observations :

- la reconnaissance des lettres n'est pas une condition sine qua non pour la reconnaissance des mots;

- la syntaxe intervient dans la reconnaissance des mots en lecture; sinon, comment expliquer la différence entre la lecture des mots-pleins et des mots fonctionnels?

- la sémantique intervient avant l'identification complète du mot; sinon, comment expliquer les paralexies sémantiques de ces patients?

Ce comportement pathologique ne semble nullement être le fruit d'un traitement aberrant, ni d'ailleurs d'un système créé de novo suite à la lésion cérébrale. Il s'agit plutôt d'une interruption de la chaîne logique des traitements qui fait apparaître dans le comportement des produits inachevés des traitements, produits qui dans des conditions normales auraient été davantage élaborés (Rosenthal, 1988; Semenza et al., 1988) . 0n peut en effet trouver des effets analogues chez des sujets normaux. C'est par exemple le cas de l'amorçage subliminal ou parafovéal; ainsi, lorsqu'on présente à un sujet des couples de mots sémantiquement proches ( table - chaise ) de telle sorte que le premier mot ne puisse pas être identifié (soit qu'il est présenté d'une façon trop brève, soit qu'il est présenté dans la zone parafovéale de la rétine qui ne permet pas d'identifier un mot) on trouve un effet de facilitation (temps de reconnaissance plus court) sur le second mot. Ainsi, bien que le sujet ne soit pas capable d'identifier le premier mot, il est clair qu'il a dÝ en faire un certain traitement sémantique qui influence à son tour l'identification du second mot (cf. Marcel, 1983) .

L'utilisation quasi exclusive des mots isolés dans les recherches neuropsychologiques soulève d'ailleurs autant d'objections que lorsqu'il s'agit de travaux avec les lecteurs normaux. Le célèbre patient agnosique (Sch.) de Gelb et Goldstein (1938) était capable de lire des livres et des journaux (même s'il se plaignait que cela le fatiguait beaucoup). Il a toutefois échoué à toutes les présentations tachistoscopiques de mots isolés; même lorsque le temps de présentation était de 2 sec. il ne pouvait rien lire et disait : 'On ne peut pas lire cela, il faudrait connaître la sténo'. Il arrive aux dyslexiques profonds, qui éprouvent tant de difficultés à lire les listes de mots concoctées par les expérimentateurs, de lire le quotidien du jour ou une revue. Comment y parviennent-ils alors qu'ils ne peuvent correctement lire à haute voix plus de 40% de mots présentés isolément? Ces exemples montrent que la lecture (à haute voix) ou l'identification de mots isolés ne peut être prise pour le critère de la capacité de lire.

A partir de ces observations il m'est apparu que le traitement perceptif du langage écrit comporte à la fois des processus locaux et globaux et que ces derniers atteignent à une étape précoce du traitement un niveau d'élaboration tel que l'intervention des processus linguistiques et cognitifs devient possible, et cela avant ou sans l'identification explicite du mot. Mais aucune étude n'offrait de réelle proposition quant à la nature de ces traitements ou à leur structure logique.

Certains travaux dans le domaine de l'analyse des mouvements oculaires en lecture paraissaient instructifs à cet égard. Il est connu depuis le 19^ème siècle que les mouvements oculaires en lecture ne sont pas uniformes, le regard se posant successivement sur chaque lettre, mais saccadés, de sorte que seule une partie du mot est en général fixée et certains mots ne le sont même pas du tout. Deux questions viennent immédiatement à l'esprit dès que l'on prend connaissance de ces faits : qu'est-ce qui est fixé et qu'est-ce qui détermine l'emplacement des fixations?

Il faut préciser que la rétine de l'homme n'est pas une structure homogène mais différenciée notamment par la distribution des cônes et des b‚tonnets. Le centre de la rétine ou la fovéa comporte la plus grande concentration de cônes et c'est également la partie de l'úil où la vision est la plus nette; en fait, lorsqu'on parle des fixations du regard on entend par là fixations fovéales. La partie extrafovéale de la rétine comporte une concentration décroissante des cônes, au fur et à mesure que l'on s'éloigne de la fovéa. On définit en général l'empan de la zone fovéale à 2€, c'est-à-dire 1€ à gauche et 1€ à droite du centre de la fixation. La description de la zone extrafovéale est plus complexe. On distingue en général une zone parafovéale qui s'étend jusqu'à 5€ à gauche et à droite de la fixation (c'est-à-dire entre 1€-5€) et une zone périphérique à partir de 5€. Toutefois ces zones sont loin d'être homogènes. Il est certain qu'un mot ou un objet complexe ne peut être explicitement identifié dans la zone extrafovéale (même à 4€) mais une lettre isolée ou une couleur peuvent l'être jusqu'à 15€ à 20€ du centre de fixation. Toutefois, cette même lettre ne pourra pas être identifiée à la même distance du centre si elle est à l'intérieur d'un mot. Il n'en reste pas moins que, bien que ni un mot ni une lettre à l'intérieur d'un mot ne puissent être explicitement identifiés dans la zone parafovéale, puisque la longueur moyenne d'une saccade dépasse la largeur de l'empan fovéal, l'emplacement d'une nouvelle fixation ne peut être déterminé que dans la zone parafovéale (Loftus, 1983; Rayner & Pollatsek, 1987) . Il y a environ cent ans, Dodge (1907) a montré que la présentation parafovéale d'un mot accélère sa dénomination en lecture lorsque ce mot est par la suite fixé dans la fovéa. Ainsi donc, l'exposition parafovéale ne sert pas seulement à déterminer l'emplacement de la prochaine fixation elle fournit également des renseignements sur le mot.

Quelle est la nature de ces renseignements et en quoi consiste le traitement effectué en vision parafovéale étaient des questions qui ont acquis à ce stade une importance primordiale. Sur le plan physique, la vision parafovéale est caractérisée par une faible résolution spatiale, de sorte qu'elle ne permet pas l'analyse d'un détail interne à une forme (e.g. une lettre dans un mot). Cette faible résolution spatiale convient toutefois parfaitement pour caractériser grossièrement une forme globale (e.g. un mot). D'un autre côté, la vision fovéale dont la sensibilité spatiale convient très bien pour caractériser finement un élément local (e.g. une lettre) intervient normalement à la suite du traitement parafovéal et en général (sauf refixation du mot à un autre endroit) ne couvre qu'une partie du mot fixé. M'appuyant entre autres sur ce raisonnement, j'étais arrivé à la conclusion qu'un traitement infra-lexical partiel intervient localement à la suite du traitement global et en fonction de celui-ci. Ce qu'il fallait spécifier avant tout était la nature du traitement global qui semblait intervenir en premier lieu. Sans aborder cette question sur le plan phénoménologique, à savoir ce qui permet au sujet d'identifier explicitement un mot ou du moins lui procure la vision du mot, cette notion de traitement global antérieur à un traitement local partiel et fin paraissait paradoxale. En effet, si un traitement global du mot permet de caractériser ce dernier pourquoi revenir pour traiter localement une partie de ce mot? La seule solution logique [52] semblait supposer que le traitement global ne permet pas de caractériser complètement le mot. Cette proposition s'inspirait d'ailleurs des expériences de Dodge et d'autres travaux plus contemporains du même genre (Rayner, McConkie, & Ehrlich, 1978) , qui montraient que la vision parafovéale d'un mot accélère son traitement lorsque ce dernier est par la suite fixé au niveau de la fovéa.

Il paraissait alors intéressant d'élargir le champ de recherches sur la lecture à la reconnaissance automatique de l'écriture manuscrite (reconnaissance off-line ) [53] en définissant un système de reconnaissance basé sur une analyse de la forme globale des mots et sur quelques algorithmes morpho-syntaxiques et sémantiques. Outre d'aborder un problème non résolu dans le domaine de la reconnaissance des formes sur ordinateur, cette démarche présentait à mes yeux l'avantage de devoir spécifier ce que l'on entend par traitement global de la forme du mot d'une façon suffisamment précise pour que ce traitement puisse être implémenté sur ordinateur. L'idée d'associer le traitement de la forme globale, morpho-syntaxique et sémantique s'appuyait sur la constatation que les dyslexiques profonds, incapables de reconnaître les lettres, sont néanmoins capables de lire certaines classes grammaticales de mots sans faire beaucoup de confusions visuelles (du genre vison -> vision ) mais éventuellement des erreurs sémantiques (cf. ci-dessus). Le traitement global des mots semblait ainsi être associé à des traitements syntaxiques et sémantiques (cf. Parisse, 1987).

Avec deux étudiants en thèse, Christophe Parisse et Abdelmalek Imadache, nous nous sommes engagés dans la réalisation matérielle du projet. Très rapidement, nous nous sommes heurtés au problème du traitement de la forme éminemment variable que constitue le tracé d'un mot manuscrit, forme de surcroît informativement très pauvre. Les premiers essais nous ont conduits à comprendre que le postulat d'une reconnaissance globale cachait une montagne et qu'il était impossible, vu la complexité et la variabilité du signal écrit, de pouvoir directement caractériser un mot en s'appuyant sur l'ensemble de ses propriétés spatiales. Il faut en effet souligner que les méthodes mathématiques globales (par exemple, les transformations Karhunen-Loeve, Fourier ou Hadamard) s'appliquent très mal à la dimension spatiale ou, plus exactement, sont trop sensibles aux variations locales. Il est donc devenu clair que pour pouvoir analyser d'une façon globale une forme non géométrique, sans avoir au préalable une idée sur l'identité de cette forme, il est nécessaire de tailler dans ses propriétés spatiales (ou dans sa description topologique). Il fallait donc passer impérativement par une simplification relativement grossière des mots écrits afin de pouvoir procéder à une première catégorisation de ces mots. Cette catégorisation préliminaire pouvait alors être complétée par des traitements d'un autre type, non plus globaux mais locaux. L'implémentation d'une méthode de simplification du tracé, qui consistait à approximer d'une façon relativement grossière le contour extérieur des mots (voir les profils grossiers dans Figure 2 et 3), a permis d'obtenir des résultats d'une qualité tout à fait inattendue, justifiant a posteriori l'approche adoptée (ce travail a été détaillé dans la thèse de doctorat de Parisse soutenue en 1989 [54] et dans Parisse, 1996) .

Figure 2. Exemples de traitements réalisés sur le mot manuscrit 'cache' saisi au scanner.
La colonne du milieu montre les points du contour supérieur et inférieur selon la finesse
de la résolution (grossière en haut, fine en bas) choisie, la colonne de droite montre les profils vectorisés utilisés.

Figure 3. Comparaison de deux occurrences du mot manuscrit 'kilos'
et des profils grossiers (colonne du milieu) ou fins (colonne de droite) obtenus.

Ainsi donc est apparue la solution du paradoxe du traitement global et une explication fonctionnelle des traitements réalisés en vision parafovéale. Avec une faible résolution spatiale, on néglige naturellement les variations locales non substantielles. Cette faible résolution convient cependant très bien pour catégoriser grossièrement la forme globale et détermine ipso facto les parties de cette forme qu'il est utile d'examiner d'une façon plus fine pour identifier cette forme. Nous avons postulé un principe général sous-tendant la perception de l'écrit (et sans doute de portée plus générale) aux termes duquel la catégorisation des mots sur la base d'une approximation grossière de leur forme globale est complétée logiquement par une discrimination locale orientée par les propriétés catégorielles de ces mots (Parisse et al., 1990) . Un concept relativement analogue a été par la suite proposé par Sanocki (1993) .

Le principe catégorisation sur la base d' approximation globale suivi de discrimination au moyen de vérification locale offre une explication fonctionnelle de «laprécédence perceptive' de l'information globale par rapport à l'information locale, souvent rapportée dans la littérature mais aussi souvent contestée, faute de justification fonctionnelle satisfaisante (cf. Kimchi, 1992; Navon, 1977; Peressotti & Job, 1991) . En effet, cette succession dans le temps ne s'explique pas tout simplement par une différence d'échelle (global vs. local), car une différence d'échelle n'implique pas un ordre temporel. Elle ne peut s'expliquer que par les discontinuités structurelles correspondant aux différences de la nature du traitement, tant sur le plan de l'objectif recherché que sur le plan qualitatif [55] .

Ce principe ne peut de toute évidence être spécifique au traitement de l'écrit et semble instancier plus généralement la structure du traitement visuel des formes (Navon, 1977; Navon, 1991; Sanocki, 1993) . Il paraît d'ailleurs inconcevable qu'une telle structure fondamentale sur le plan fonctionnel ne soit pas sous-tendue par une organisation neurophysiologique et anatomique compatible. Les études anatomiques et physiologiques des voies magnocellulaire (M) et parvocellulaire (P) montrent, en effet, que l'information rétinienne est traitée à deux reprises et d'une façon non redondante (cf. Lehmkuhle, 1993) . Il faut rappeler que les cellules M sont plus rapides que les cellules P, en raison de leur plus large diamètre axonal et que chacun des deux systèmes échantillonne l'image rétinienne avec une résolution différente. La voie M, dont le champ réceptif est plus vaste et qui est plus sensible aux faibles fréquences spatiales, semble fournir une information spatiale grossière nécessaire à l'identification des formes élémentaires et à la ségrégation figure - fond. La voie P, dont le champ réceptif est plus étroit, est en revanche plus sensible aux hautes fréquences spatiales. Cette voie échantillonne l'image rétinienne avec une meilleure résolution, fournissant ainsi des informations sur les détails locaux. Il semble donc que la voie M traite rapidement l'information relative à la forme grossière globale et que la voie P traite par la suite l'information relative aux détails fins et à la couleur (cf. Leventhal, Rodieck, & Dreher, 1981; Merigan & Maunsell, 1993; Shapley & Perry, 1986) . Autrement dit, la voie M semble fournir une première définition grossière ou approximative de l'identité du stimulus et de sa position dans l'espace (ainsi que sur la rétine), définition suffisante pour guider le traitement parvocellulaire et permettre au système oculomoteur de «placer' certaines parties du stimulus sur la fovéa. Par ailleurs, certaines données anatomiques montrent que la voie M peut être sélectivement atteinte chez les patients présentant des troubles acquis (maladie d'Alzheimer et certains cas de glaucome) ou développementaux de la lecture (Breitmeyer, 1993; Eden, Stein, Wood, & Wood, 1994; Eden, Stein, Wood, & Wood, 1995; Lehmkuhle, 1993; Livingstone, Rosen, Drislane, & Galaburda, 1991; Lovegrove & Williams, 1993; Stein & Talcott, 1999; Stein & Walsh, 1997) .

Sur le plan de l'objectif recherché, il s'agit d'une part, d'une catégorisation (ou d'une pré-catégorisation) de la cible perceptive (approximation globale) et d'autre part, d'une discrimination locale permettant de sélectionner le bon mot dans un sous-ensemble de candidats possibles (vérification locale). J'insiste sur cette finalité, pour souligner que ce n'est pas le caractère global ou local qui serait en soi suffisant pour une reconnaissance adéquate. Un dyslexique profond atypique que j'avais étudié avec Martine Dési était en mesure d'identifier (au moins implicitement) les lettres et néanmoins faisait de nombreuses paralexies sémantiques en lecture de phrases. Ce comportement n'a de sens que si l'on retient, conformément au principe catégorisation globale - discrimination locale , la finalité de chaque opération. Ainsi, il apparaît clair que ce n'est pas en soi la capacité de reconnaître les lettres (donc d'effectuer un traitement local), mais celle de conduire les vérifications locales déterminées par les approximations qui est nécessaire pour une lecture correcte.

Sur le plan qualitatif, la succession traitement grossier - traitement fin est motivée par la nature du problème de la reconnaissance des formes non-géométriques (et donc non-déductibles) et par la prise en compte de la morphologie de la rétine et de la structure des mouvements oculaires. La catégorisation globale effectuée dans la zone parafovéale (à faible définition) détermine l'emplacement de la vérification locale, effectuée dans la zone fovéale (à haute définition). Ainsi semblent s'expliquer deux énigmes : celle de la saccade et, du moins partiellement, celle de la détermination de l'emplacement de la fixation par la vision parafovéale (cf. Parisse et al., 1990; Rosenthal, Parisse, & Chainay, soumis) .

Cette structure de traitement où se succèdent processus globaux grossiers et locaux fins est d'ailleurs compatible avec des observations concernant le champ visuel de certains dyslexiques. Ces observations portent sur des dyslexiques dont le champ de vision relativement fine est anormalement large, de sorte que leurs champs de vision parafovéale et périphérique sont très excentrés. Contrairement aux sujets normaux, ces dyslexiques sont capables d'identifier des couleurs ou des lettres isolées projetées très loin dans la périphérie de la rétine; or ils présentent de graves difficultés d'apprentissage de la lecture. Ces difficultés, surmontables avec une stratégie impliquant l'utilisation des parties très excentrées du champ visuel, ce qui induit des mouvements oculaires erratiques et de grande amplitude (Geiger & Lettvin, 1987; Grosser & Spafford, 1989) , ne semblent explicables que si l'on suppose que le champ de la vision assez grossière est fonctionnellement indispensable pour le traitement perceptif au cours de la lecture. L'anomalie de la rétine qui en apparence confère à ces patients des capacités visuelles assez exceptionnelles se révèle en fait un handicap pour le traitement perceptif. Ces observations corroborent d'une façon particulièrement nette le principe structurel impliquant obligatoirement la séquence catégorisation globale- discrimination (vérification) locale.

Le principe catégorisation globale - discrimination locale comporte aussi un autre postulat important : la vérification locale est par définition restreinte à la zone du mot (i.e. lettre ou groupe de lettres) qui est morphologiquement critique pour la discrimination, autrement dit la vérification n'est pas exhaustive mais sélective . Ainsi donc, contrairement aux modèles basés sur le principe du traitement en parallèle de toutes les lettres (Adams, 1979; Besner, Coltheart, & Davelaar, 1984; Coltheart, 1981; Grainger & Jacobs, 1996; Johnston & McClelland, 1980; McClelland & Rumelhart, 1981) nous avons été amenés à postuler que seules certaines lettres à l'intérieur du mot- à savoir les lettres discriminantes par rapport à l'ensemble des mots de la langue ayant la même forme globale- sont réellement traitées au cours de la lecture normale. Cela conduit à prédire que la discrimination locale (au moyen d'une fixation fovéale) porte sur la partie du mot morphologiquement discriminante ou critique.

Cette prédiction était en accord avec les résultats obtenus par Underwood et ses collaborateurs (Everatt & Underwood, 1992; Underwood, Clews, & Everatt, 1990) . Ces auteurs ont contrasté des mots à début «informatif' et terminaison ´redondante' avec des mots à début ´redondant' et terminaison ´informative' et ont montré, en enregistrant les mouvements oculaires des sujets, que le regard avait tendance à se poser sur la partie ´informative' du mot. Les résultats de Underwood n'ont toutefois pas été reproduits par d'autres chercheurs. En particulier, Rayner et Morris (1992) qui ont utilisé la même procédure et le même matériel mais avec un appareil d'enregistrement plus précis n'ont pas observé d'avantage pour les parties ´informatives' . Un débat s'en est suivi dont on trouvera les différents éléments dans l'ouvrage édité par Underwood (1998) . Il m'est apparu assez rapidement qu'une partie du problème résidait dans la façon fort intuitive dont Underwood désignait ce qu'il appelait partie ´informative' ou ´redondante' . Une partie du début ou de la fin du mot était informative si aucun autre mot de la même longueur n'avait les mêmes 4-6 lettres initiales ou finales. Sachant que la partie informative était censée attirer la fixation, on pouvait légitimement se poser la question de savoir en quoi consiste cette informativité (au niveau fovéal) si la fixation de cette partie du mot ne fournit aucune information discriminante. Bien au contraire, c'est seulement si cette partie partageait des lettres avec d'autres mots de la même longueur que l'on pouvait considérer qu'il est informatif (sur le plan de la discrimination entre mots semblables) de fixer ce mot. Un autre problème avec cette démarche résidait dans la supposition qu'il est possible de déterminer à 4€ ou 5€ du centre de la fixation qu'un mot partage des lettres avec un autre mot. A cette distance du centre l'acuité visuelle est insuffisante pour déterminer des lettres individuelles (Anstis, 1974; Olzak & Thomas, 1986) , en fait seule la forme globale du mot y est accessible. Ce qui a par ailleurs contribué à la confusion et était à l'origine d'une polémique (cf. Liversedge & Underwood, 1998; Rayner & Morris, 1992; Rayner, Reichle, & Pollatsek, 1998) c'était l'inconséquence d'Underwood qui hésitait entre plusieurs qualifications (sémantique, orthographique, morphologique) de son concept d'informativité [56] .

Le postulat du traitement sélectif des lettres au cours de la lecture en fonction de leur caractère orthographiquement discriminant instancie le principe théorique catégorisation globale - discrimination locale , dans la mesure où seule une catégorisation globale du mot permet de déterminer quelles sont ses lettres discriminantes. Cette détermination suppose que la similarité orthographique est fondée sur la similarité des formes globales des mots. Le concept de similarité orthographique usuellement proposé dans les recherches sur la lecture est fort différent. Le plus connu est celui de la similarité de voisinage (Landauer & Streeter, 1973) définit par la différence sur une seule lettre entre un mot et d'autres mots de la langue, en respectant les positions des lettres (voir aussi le concept de N-metric Coltheart, Davelaar, Jonasson, & Besner, 1977, qui en est l'expression la plus courante) . Ce concept de similarité de voisinage (ou de voisinage orthographique) est fondé sur l'idée que l'identification des mots intervient au niveau d'un code abstrait où ce qui est pertinent ce n'est pas la forme du stimulus mais les identités abstraites des lettres (Adams, 1979; Besner et al., 1984; Coltheart, 1981; Evett & Humphreys, 1981; Saffran, 1980) . La définition du voisinage orthographique ne tient donc aucun compte de la similarité des formes, celles des mots ou celles des lettres (ainsi table est un voisin orthographique de sable en dépit de la dissimilarité de leurs formes globales), elle renvoie seulement de la correspondance de toutes les identités des lettres moins une [57] (cf. Massaro & Cohen, 1994) .

Au contraire nous avons défini la similarité orthographique sur la base de la similarité des formes globale des mots. Dans ce cadre, les mots appartenant à la même classe de formes ne peuvent différer que sur des lettres de forme similaire. Les lettres de forme similaire correspondent aux lettres de la même hauteur qui ne modifient pas la forme globale du mot sur le plan d'une définition spatiale assez grossière (voir aussi Walker, 1987) . La similarité orthographique correspond ainsi à la similarité des formes globales des mots au niveau de la définition spatiale qui est insensible aux variations internes des lettres (e.g. concavité). Les seuls critères discriminants sont ici la hauteur de la lettre et sa position (haute, médiale, basse) sur l'axe vertical. Nous obtenons ainsi quatre classes de lettres à l'intérieur desquelles les substitutions sont permises (car elles ne modifient pas la forme du mot). Ces classes comportent les ascendeurs (b, d, f, h, k, l, t), les descendeurs (g, j, p, q, y), les lettres médiales (a, c, e, m, n, o, r, s, u, v, w, x, z) et les lettres médiales accentuées (à, é, è, ê, Î, i, ï, ù, ü).

A partir de ce concept de similarité orthographique, nous pouvons définir le caractère orthographiquement discriminant d'une lettre par l'existence ou non des mots de la même forme globale relativement à la position de cette lettre (letter slot) dans le mot (à savoir si la substitution de cette lettre par une autre lettre de la même classe crée un mot du français). Ainsi, par exemple, le s dans ma s que est discriminant et donc critique pour son identification en raison de l'existence de ma r que et ma n que . Ce n'est pas le cas du s dans de s tin car aucune substitution de cette lettre (par une autre lettre de la même classe) ne fera un mot du français.

On notera que cette définition du caractère discriminant des lettres n'a de sens dans le cadre de l'hypothèse du traitement sélectif des lettres que si le nombre des lettres discriminantes est nettement inférieur au nombre des lettres dans le mot. Nous avons entrepris une analyse de 24.589 mots du français, à savoir de tous les mots de quatre à dix lettres de la base des données BRULEX (Content, Mousty, & Radeau, 1990) qui contient le dictionnaire des fréquences des mots français (Imbs, 1971) , afin de disposer de données statistiques sur la distribution des formes lexicales (en fonction de nos quatre critères) et sur la discriminabilité des positions des lettres ambiguÎs. Les seuls mots exclus de l'analyse étaient ceux qui commençaient par une majuscule et les abréviations. Le programme recensait d'abord l'ensemble des formes globales et des positions des lettres discriminantes du corpus. Ce premier recensement a montré que 5891 (23,9%) mots du corpus ont une forme unique (ne partagent leur forme globale avec aucun autre mot). Les analyses de la distribution des formes globales et de la discriminabilité des positions des lettres ambiguÎs ont été conduites avec les 18.698 mots qui partagent leur forme globale avec d'autres mots. Les résultats peuvent être résumés comme suit : 8878 (47,5%) de ces mots peuvent être identifiés en vérifiant une position de lettre ambiguÎ, 13.128 (70,2%) de ces mots peuvent être identifiés en vérifiant jusqu'à deux positions de lettre ambiguÎs et 15.813 (84,6%) mots, en résolvant jusqu'à trois positions de lettre ambiguÎs. Ainsi, à partir de la classification des formes lexicales en fonction de nos quatre critères, près de 50% des mots du français qui ont une forme globale ambiguÎ (à savoir, qui partagent leur forme globale avec d'autres mots) peuvent être identifiés avec la vérification d'une seule position de lettre ambiguÎ et plus de 70%, de deux positions [58] . Ces taux d'identification seraient encore plus importants s'ils tenaient compte des mots à forme unique. De plus, si on prend en compte la contribution d'autres sources d'information pertinente (par exemple, syntaxiques, sémantiques, textuelles, esthétiques...), pratiquement n'importe quel mot du français est identifiable en contexte avec la vérification d'une ou tout au plus de deux de ses lettres. Ainsi, l'hypothèse du traitement sélectif des lettres en fonction de leur caractère orthographiquement discriminant s'avère tout à fait intéressante sur le plan du calcul.

Nous avons procédé à une première évaluation de cette hypothèse au moyen d'une expérience de détection de lettres (letter cancellation task, voir Healy, 1994, pour plus de détail sur cette technique) . Les sujets devaient cocher toutes les occurrences de la lettre s pendant qu'ils lisaient un texte dont ils devaient retenir le contenu. Ce texte comportait entre autres 60 mots-test (mots pleins), dont 30 critiques et 30 non-critiques en ce qui concerne le statut morphologique de la lettre cible s . Ainsi, par exemple, le s dans s apeur et vi s age est critique (à cause de v apeur et vi r age ) et, inversement, le s dans s ource ou de s tin n'est pas critique car aucune substitution de cette lettre par une autre lettre de la même classe ne crée un mot du français. La variable dépendante dans cette expérience était le nombre d'omissions (oubli de cocher) de la lettre cible. Les résultats (cf. Figure 4) ont montré que les sujets omettent deux fois plus de lettres non-critiques que de lettres critiques et cela quelle que soit la position de la lettre dans le mot (1^ère , 3^ème ou 5^ème -7^ème ) ou la fréquence du mot [59] . Ainsi donc, les lettres morphologiquement non critiques pour la reconnaissance des mots ne sont pas aussi visibles ou repérables lors de la lecture que les lettres critiques, et cela malgré une consigne explicite de cocher toutes les occurrences d'une lettre donnée. Cet effet de lettre critique corrobore notre postulat sur le caractère sélectif des discriminations locales et, ipso facto , celui de la précédence perceptive de la catégorisation de la forme globale des mots par rapport à la discrimination locale de certaines de leurs lettres. Comment en effet savoir à l'avance quelle est la zone critique pour la discrimination (sélective) sans disposer d'hypothèses sur l'identité du mot, c'est-à-dire sans l'avoir catégorisé au préalable !

Figure 4. Pourcentages d'omission de la lettre-cible en fonction de son statut morphologique
(critique vs. non critique) et de sa position dans le mot.

Cette première observation de l'effet de lettre critique n'était pas exempte de quelques interrogations. Tout d'abord, puisque nous avons utilisé des textes réels, l'on pouvait se demander s'il n'y avait pas de biais induit par le contexte, si par exemple les mots contenant la lettre critique n'étaient pas souvent des mots inattendus et les mots contenant la lettre non critique, des mots contextuellement prévisibles. Deuxièmement, nous n'avons observé aucun effet de fréquence lexicale alors que Healy (1976) avait trouvé un léger effet de fréquence dans une t‚che de détection de lettres. Healy était certes la seule à avoir trouvé un effet de fréquence dans cette t‚che. Toutefois, depuis les premières études de Solomon et Postman (1952) , la fréquence lexicale est l'un des facteurs les plus étudiés dans les recherches sur la reconnaissance des mots. Ce sont les effets de fréquence lexicale qui ont au départ motivé le principe des modèles de type ‘criterion bias' (Broadbent, 1967; Morton, 1969) , et la prise en compte de ces effets joue un rôle important dans plusieurs autres modèles, y compris des modèles récents (cf. par exemple Grainger & Jacobs, 1996; McClelland & Rumelhart, 1981) . Pour nous, l'absence d'un effet de fréquence dans notre expérience s'expliquait par deux raisons : (a) les effets de fréquence ne relèvent que de l'utilisation de mots isolés, principalement dans des t‚ches de décision lexicale (voir aussi Balota & Chumbley, 1984; Besner & McCann, 1987) où se crée une sorte de biais heuristique en faveur des mots fréquents; (b) ces effets ne peuvent intervenir qu'au niveau du mot entier et non pas au niveau de la lettre. Puisque la t‚che de détection de lettres est censée sonder l'étape de discrimination locale des lettres ambiguÎs, cette t‚che ne devait pas être affectée par la fréquence lexicale. L'absence de tout effet de fréquence était donc conforme à notre attente. Cependant, compte tenu du résultat antérieur de Healy et du statut des effets de fréquence dans ce domaine nous ne pouvions pas en rester là. Et cela d'autant moins que l'on pouvait se demander si nous avions utilisé des contrastes (entre mots fréquents et non fréquents) suffisants.

L'effet de fréquence qu'avait trouvé Healy (1976) , au demeurant assez léger, s'était produit dans une t‚che de détection de lettres dans un assemblage de mots en désordre (scrambled text). La divergence entre ses résultats et les nôtres pouvait donc résulter de ce fait. Dans notre expérience les sujets devaient lire attentivement le texte tout en cochant la lettre pré-désignée, or cette t‚che dans le cas d'un assemblage de mots en désordre, ne requiert pas nécessairement une discrimination complète des mots [60] et est par conséquent plus affectée par la catégorisation globale qui s'adresse par définition au format mot.

Afin d'évaluer cette explication et partant la question de savoir si l'effet de lettre critique observé dans notre expérience initiale pouvait être dÝ à un biais contextuel nous avons repris cette expérience initiale en mélangeant les mots de ces textes de manière à les mettre en désordre. Cette expérience utilisait donc le principe de cochage de lettres avec les mots en désordre, la t‚che des sujets consistant à cocher au fur et à mesure et aussi rapidement que possible toutes les occurrences de la lettre s sans jamais revenir en arrière. Les résultats ont à nouveau montré que les sujets omettent presque deux fois plus de lettres non-critiques que de lettres critiques (23,1% vs. 13,9%, F(1,29) = 30,92, p < 0,0001). Cette fois-ci, les lettres tests dans les mots fréquents ont été plus souvent omises que dans les mots peu fréquents (F(1,29) = 4,18, p = 0,05) dans une proportion quasiment identique à celle décrite par Healy.

L'effet de lettre critique s'est ainsi avéré indépendant du contexte (il n'a pas été "fabriqué" par le hasard de la construction des textes expérimentaux). L'absence d'un effet de fréquence dans notre expérience initiale ne pouvait donc pas être attribuée à la faiblesse du contraste entre les mots fréquents et non fréquents, puisque ce même contraste a permis d'observer un effet de fréquence dans un autre contexte expérimental. Bien au contraire, conformément à notre attente, l'effet de fréquence lexicale s'est avéré être un effet hors contexte. Une comparaison de ces résultats avec ceux de l'expérience initiale a par ailleurs montré que les sujets ont fait deux fois plus d'omissions dans la condition des mots en désordre que dans la condition d'une prose normale [61] (voir Figure 5).

Figure 5. Pourcentages d'omission de la lettre-cible en fonction de son statut (critique vs. non critique)
et du type de texte (prose normale vs. mots en désordre).

Ce 'text superiority effect' corrobore le postulat d'une plus grande résonance de la catégorisation globale (et donc du format mot) sur la détection de lettres dans le cas d'un assemblage de mots en désordre et démontre le caractère perceptif de l'effet de lettre critique. L'observation que les lettres sont plus visibles ou repérables dans un texte que dans un assemblage de mots sans aucun sens suggère également que la discrimination locale n'est pas une étape obligatoire mais qu'elle dépend du processus de lecture en cours. Nous y reviendrons plus loin.

La troisième expérience de cette étude avait pour objectif d'évaluer notre postulat de l'origine perceptive de l'effet de lettre critique, origine liée à l'ambiguïté des formes globales des mots. Ce postulat découle de notre définition de la similarité orthographique en termes de similarité des formes. Cette définition contraste avec celle de la similarité de voisinage où le fait d'être des voisins orthographiques est déterminée par la possession de toutes les lettres en commun sauf une, que ces mots aient des formes semblables ou non (Coltheart et al., 1977) . Rappelons que le concept de similarité de voisinage s'appuie sur l'idée que la reconnaissance des mots intervient au niveau d'un code abstrait et requiert d'une façon critique la manipulation d'identités abstraites des lettres (Adams, 1979; Besner et al., 1984; Coltheart, 1981; Evett & Humphreys, 1981) . C'est d'ailleurs dans ce cadre que se sont développés, au cours des années 1990, les travaux sur les effets de la taille du voisinage orthographique et de la fréquence des voisins. Ces travaux ont débouché sur une controverse entre les partisans de la prééminence de la taille du voisinage avec ceux de la fréquence relative des voisins, controverse qui semble s'alimenter continuellement des résultats contradictoires obtenus par les deux camps (cf. Andrews, 1992; Andrews, 1997; Forster & Shen, 1996; Grainger & Jacobs, 1996; Grainger et al., 1989; Grainger et al., 1992; Pollatsek, Perea, & Binder, 1999; Sears, Hino, & Lupker, 1995; Sears, Lupker, & Hino, 1999; Snodgrass & Mintzer, 1993) .

Notre troisième expérience permettait de confronter ces deux visions de similarité orthographique tout en étudiant en priorité la question de l'origine (perceptive vs. abstraite) de l'effet de lettre critique : une lettre est discriminante (donc critique) parce que son remplacement par une autre lettre, quelle qu'elle soit, crée un voisin orthographique de même forme globale ou de forme différente ( orage - otage ); ou une lettre est discriminante parce qu'elle différencie des mots ayant la même forme globale ( percher- pencher ). Pour cela, nous avons à nouveau utilisé la technique de cochage de lettres pendant la lecture d'un texte. Ce texte comportait notammentdes mots :

- où une substitution de la lettre test ' r ' ne pouvait créer qu'un mot ayant la même forme globale ( effarer- effacer )- condition de similarité orthographique;

- où une substitution de la lettre test ' r ' ne pouvait créer qu'un voisin orthographique de forme globale différente ( artiste - altiste )- condition de voisinage orthographique;

- où aucune substitution de la lettre test ' r ' ne crée un mot de la langue ( horizon - non-mot)- condition de contrôle.

Les résultats ont montré que la condition de similarité orthographique diffère significativement des deux autres conditions [62] . Les sujets ont fait pratiquement deux fois plus d'omissions de la lettre test dans la condition de voisinage orthographique et dans celle de contrôle que dans le cas de similarité orthographique. Les conditions de contrôle et de voisinage orthographique ont donné lieu à des taux d'omission quasiment identiques. L'effet de lettre critique ne s'est produit que dans le cas de similarité orthographique où la lettre test différencie des mots ayant la même forme globale. Ce n'est donc pas le fait de partager toutes les lettres sauf une qui est pertinent mais le fait de partager la même forme globale. Dans ce dernier cas il existe une ambiguïté des formes qui appelle un examen local de la lettre discriminante. Que cette ambiguïté des formes globales des mots conduise les lecteurs à porter leur attention sur la lettre qui différencie ces mots, montre la précédence perceptive de la catégorisation des mots sur la base de leur forme globale par rapport à la discrimination locale de certaines de leurs lettres.

Cette expérience apporte donc une nouvelle confirmation du traitement sélectif au cours de la lecture des lettres orthographiquement discriminantes et met en évidence l'origine perceptive de l'effet de lettre critique : c'est la similarité des formes globales des mots qui détermine quelles sont les lettres orthographiquement discriminantes. Ce résultat devrait permettre également de mettre un terme à une décennie de débats et de résultats contradictoires concernant les effets de la taille ou de la fréquence du voisinage orthographique. Le concept de voisinage orthographique sur la base du recoupement partiel des identités abstraites des lettres conduisait à amalgamer les mots ayant la même forme globale (comme dans la condition de similarité orthographique) et les mots à forme globale différente (comme dans la condition de voisinage orthographique de notre expérience). Ainsi, on avait confondu les situations de similarité orthographique (dont l'effet sur la lecture a été démontré avec les expériences qui viennent d'être décrites) et les situations où une substitution de lettre change la forme globale du mot (et dont l'effet s'est avéré être nul). Que cela ait conduit à des résultats contradictoires ne devrait guère surprendre!

Une dernière expérience dans le cadre de cette étude a permis de généraliser l'effet de lettre critique et a montré qu'il est indépendant d'une technique expérimentale donnée. Dans cette expérience basée, sur l'enregistrement des mouvements oculaires, nous cherchions à la fois une démonstration plus directe du traitement sélectif des lettres au cours de la lecture et une indication de ce que le lecteur fixe du regard et pourquoi. Cette expérience est intervenue sur le fond du débat concernant les déterminants morpho-orthographiques ou purement oculomoteurs des emplacements des fixations dont il a été question plus haut et que résume l'ouvrage édité par Underwood (1998) . A mes yeux, la définition d'Underwood de ce qui constitue une partie informative du mot était incohérente et son idée, que l'on fixe la partie du mot qui ne présente aucune ambiguïté, n'avait aucune justification fonctionnelle. Ces deux raisons suffisent pour expliquer l'échec de Rayner et Morris (1992) à confirmer le résultat de l'expérience initiale d'Underwood et al. (1990) .

Les concepts de similarité orthographique et d'information discriminative dont le principe a été discuté ci-dessus nous semblent fournir un cadre théorique et opératoire plus adéquat pour aborder la question des déterminants du locus des fixations oculaires. Rappelons que le principe catégorisation globale - discrimination sélective locale s'inspire des propriétés de l'úil (notamment de la morphologie de la rétine) et des caractéristiques du comportement oculaire du lecteur, notamment en ce qui concerne la succession dans le temps de la vision parafovéale et fovéale. En effet, le format de la vision parafovéale est parfaitement adéquat pour une catégorisation globale du mot sur la base d'une approximation (grossière) de sa forme, et le format de la vision fovéale convient très bien à la discrimination locale fine d'une partie de ce mot. Une telle catégorisation du mot sur la base de sa forme globale détermine ipso facto chez un lecteur qui connaît les mots de sa langue quelles sont les lettres qui distinguent ce mot d'autres mots ayant la même forme globale. La vision parafovéale peut donc fournir une information précise sur l'emplacement dans le prochain mot dont l'inspection est la plus utile.

Cette proposition revient à postuler que l'exploration parafovéale est sensible aux paramètres cognitifs et orthographiques, qu'elle permet de minimiser l'incertitude concernant le prochain mot dans le texte (voir aussi Legge, Klitz, & Tjan, 1997) et que la distribution de l'information discriminative (lettres) détermine le locus des fixations oculaires dans les mots dont la forme globale est ambiguÎ. Cette idée va à l'encontre de la thèse de la détermination exclusive du locus des fixations par des contingences oculomotrices et les limites de l'acuité visuelle (McConkie, Kerr, Reddix, & Zola, 1988; Nazir, Jacobs, & O'Regan, 1998; O'Regan & Jacobs, 1992; O'Regan, Levy-Schoen, Pynte, & Brugaillere, 1984; Vitu, O'Regan, & Mittau, 1990) . En particulier, l'idée d'une position optimale du regard ('optimal viewing position') soutenue par O'Regan et ses collègues ne nous semble refléter que la distribution statistique des lettres orthographiquement discriminantes dans les vocabulaires du français et de l'anglais.

La proposition que les lecteurs fixent les lettres qui sont orthographiquement discriminantes ne semble pas toutefois décrire d'une façon satisfaisante le comportement oculomoteur au cours de la lecture. D'une part, les lecteurs ne passent pas systématiquement les mots à forme globale non-ambiguÎ, pas plus qu'ils ne fixent tous les mots à forme ambiguÎ. Plusieurs chercheurs ont en effet observé que la décision de fixer [63] un mot est fortement influencée par le contexte et le processus de compréhension en cours (Balota, Pollatsek, & Rayner, 1985; Ehrlich & Rayner, 1981; Rayner, 1998) . D'autre part, bien que la vision parafovéale permette toute une série de traitements du mot, elle ne permet pas l'identification consciente de ce mot. Il y a donc une relation entre fixation centrale, discrimination et identification consciente du stimulus. Ainsi, la fixation ne sert pas seulement à différencier les lettres critiques, elle est aussi indispensable pour l'identification explicite du mot. Cela ne veut pas dire que la lecture comporte l'identification explicite de tous les mots. Le présent propos est tout simplement que l'identification explicite du mot passe par la fixation, même si ce mot ne présente aucune ambiguïté morpho-orthographique. Si un mot n'est pas ambigu, il peut être identifié au moyen d'une fixation à n'importe quelle location.

Ce long préambule explique le contexte théorique de notre expérience. La décision de fixer un mot dépend d'une part du processus de compréhension en cours. Cette fixation constitue d'autre part le seul moyen d'identifier explicitement un mot au cours de la lecture [64] . La décision de fixer un mot répond ainsi à un double objectif. Si cette décision intervient, les mots ambigus sont fixés au niveau des lettres discriminantes, tandis que les mots non-ambigus sont fixés à l'endroit déterminé par la commodité oculomotrice.

Le matériel expérimental a été, à quelques aménagements près, le même que dans la première expérience de cochage des lettres. Les textes ont été découpés en lignes écran afin de pouvoir les présenter ligne par ligne. Le sujet était assis face à l'écran de l'ordinateur (50 cm de distance), sa tête immobilisée avec une fixation dentaire, et portait des lunettes munies de capteurs infrarouges permettant d'enregistrer les mouvements de ses yeux et les emplacements précis des fixations successives du regard (cf. Rosenthal et al., soumis, pour plus de détail) . Trois caractères espaces correspondaient dans ce cadre à un degré d'angle de vision. Nous avons pris comme critère de fixation de la lettre-cible (T) ± 2 caractères espaces, à savoir si le point de fixation était sur la lettre-cible ou dans la limite de ± 2 caractères espaces de la lettre-cible nous considérions que cette dernière avait été fixée, sinon elle ne l'était pas. T ± 2 est en fait légèrement inférieur à l'empan théorique de la vision fovéale, mais cela permet de tenir compte du niveau de bruit du système d'enregistrement. Comme la plupart des auteurs, nous n'avons pris en compte que les fixations ayant duré au moins 100 msec.

Les principaux résultats peuvent être résumés comme suit. Globalement, les sujets ont fixé autant de mots-tests comportant une lettre critique (69%) que de mots-test sans lettre critique (71%). La fixation des mots-test au niveau de la lettre-cible se produisait significativement plus souvent si cette lettre était critique (78%) que si elle n'était pas critique (65%) [65] . La Figure 6 montre les probabilités de fixer les mots-tests au niveau de la lettre-cible (T ± 2) en fonction de son statut critique ou non-critique et de sa position dans le mot.

Figure 6. Probabilité de fixer la zone de la lettre-cible (T ± 2) en fonction de son statut (critique vs. non-critique) et de sa position dans le mot.

Les statistiques générales concernant l'ensemble des mots des textes montrent que les sujets ont directement fixé 44% des mots [66] . Les pourcentages de fixations varient en fonction de la longueur des mots (voir Figure 7), allant de 9% et 18% pour les mots à une et deux lettres jusqu'à 95% pour le mot à seize lettres. Ce rapport entre la longueur du mot et la probabilité de fixation est conforme à d'autres travaux, toutefois nos pourcentages de fixation sont inférieurs à ceux rapportés dans ces travaux (cf. Blanchard, Pollatsek, & Rayner, 1989; Rayner & Fischer, 1996; Rayner & McConkie, 1976; Rayner, Sereno, & Raney, 1996; Vitu, O'Regan, Inhoff, & Topolski, 1995) . Vitu et collaborateurs (1995) ont par exemple trouvé qu'en moyenne 58% des mots sont fixés lors de la lecture de brefs passages de textes (nous ne trouvons que 44%, certes pour des textes plus longs). De plus, ces auteurs ont observé que 90% des mots de sept à dix lettres sont fixés, alors que nous ne trouvons que 68%.

Figure 7 : Probabilités de fixer un mot (dans un texte) en fonction de sa longueur

Ces résultats jettent un éclairage sur ce que le lecteur cherche lorsqu'il fixe un mot du regard. Tout d'abord, ils confirment l'existence de déterminants orthographiques des loci de fixation en montrant un rapport systématique entre la distribution des fixations et la présence ou l'absence de lettres discriminantes : dans les mots à forme ambiguÎ les fixations atterrissent dans la zone de la lettre discriminante, dans les mots à forme non-ambiguÎ les fixations se distribuent sur tout le corps des mots. Deuxièmement, ces résultats montrent que la probabilité de fixer un mot ne dépend pas de son statut sur le plan de l'ambiguïté orthographique : les lecteurs fixent aussi souvent les mots à forme ambiguÎ que les mots à forme non-ambiguÎ.

L'observation d'un rapport systématique entre la présence de lettres discriminantes et le locus des fixations à l'intérieur des mots a d'intéressantes implications théoriques. Cette observation montre que le traitement effectué au niveau parafovéal est sensible aux propriétés orthographiques [67] des mots et qu'il guide dans une large mesure le mouvement oculaire au cours de la lecture. La détermination au niveau parafovéal des emplacements (letter slots) discriminants dans les mots à forme globale ambiguÎ démontre qu'une catégorisation de ces mots, sur la base de variations spatiales suffisantes pour caractériser le contour externe des mots mais insuffisantes pour leurs propriétés internes (lettres), a pu avoir lieu. En effet, il ne faut pas perdre de vue que ce qui dans notre exposé correspond à une ambiguïté orthographique ou à un 'letter slot discriminant' n'est ambigu ou discriminant que par rapport à une catégorisation de la forme des mots sur la base des variations globales de leur contour externe. Ainsi, l'observation de l'effet de lettre critique dans la distribution des loci des fixations du regard sur les mots au cours de la lecture corrobore directement la théorie de l'organisation perceptive en termes de catégorisation de la forme globale suivie de discrimination sélective locale .

D'un autre côté, ces résultats montrent que la discrimination n'est ni une étape obligatoire ni qu'elle est nécessairement motivée par l'ambiguïté des formes lexicales. Les probabilités de fixation et les taux de fixation des mots dans nos textes montrent que la décision de fixer un mot est déterminée à la fois par les impératifs liés à l'interprétation du texte en cours de déploiement (voir aussi Balota et al., 1985; Ehrlich & Rayner, 1981; Rayner & Well, 1996) et par l'attitude phénoménologique du lecteur. Par attitude phénoménologique il faut entendre la décision du lecteur d'identifier consciemment le mot, car, faut-il le rappeler, seule une fixation semble permettre l'identification consciente d'un mot. Je n'ai pas d'explication satisfaisante de ce besoin d'identifier explicitement certains mots. La perception explicite thématise certains items du champ de la conscience [68] et à ce titre la décision d'identifier un mot- et donc de thématiser ce qu'il signifie – relève du processus d'interprétation du texte. Cela confère à la conscience un rôle structurel dans la compréhension du langage, un rôle dont il serait vain de chercher une mention dans les manuels de psycholinguistique (voir par exemple le très complet handbook édité par Gernsbacher, 1994) .

Le fait de trouver que seul un mot sur deux [69] a été fixé dans cette expérience montre que l'information d'origine parafovéale n'est pas dénuée de sens, qu'elle en est au contraire suffisamment ´imprégnée' pour contribuer à l'interprétation [70] du texte. Ce sens est sans doute partiel et mal différencié par rapport à une définition de dictionnaire du mot, mais même incomplet et tacite ce sens contextuellement situé s'avère suffisant et approprié pour contribuer à l'interprétation du texte dont le mot fait partie. On a abusivement identifié le sens avec ce qui est explicite, articulé et défini, bref avec ce qui caractérise une expérience consciente d'un objet défini [71] . L'analyse du comportement oculaire des sujets au cours de la lecture suggère au contraire que le sens présente les mêmes caractéristiques microgénétiques que les formes qui le recèlent. Loin d'être détachable de la forme qu'il signifie et qui le révèle, le sens semble accompagner la microgenèse perceptive de cette forme et emprunter son parcours de différenciation du général et sous-déterminé vers le spécifique et défini.

[45] Ne serait-ce sur la perception du langage, et qui dit perception dit également interprétation.

[46] Comme en témoignent les exemples de segmentations alternatives du flux verbal présentés dans le chapitre consacré à la catégorisation lexicale. Les chansons de Bobby Lapointe ( Mon père et ses vers ont les pieds fragiles ..) jouent souvent sur les découpages alternatifs du flux verbal. Ce phénomène, si imperceptible dans sa langue maternelle devient tout à fait perceptible lorsqu'on écoute une langue qu'on maîtrise mal.

[47] Cette séparation physique des mots est intervenue très tardivement dans l'histoire du langage écrit, principalement avec la généralisation de l'imprimerie et la démocratisation de l'accès à l'écrit. Même au cours des premiers siècles de l'imprimerie la séparation des mots n'intervenait pas systématiquement ou alors en obéissant davantage à des impératifs typographiques qu'à l'objectif de séparer les mots par des blancs.

[48] Voir Scheerer (1981) au sujet de la réaction de Wundt.

[49] Séquences de lettres qui ne constituent pas des mots de la langue mais qui respectent les règles morpho-phonologiques et orthographiques de la formation des mots, comme par exemple mirpe .

[50] Cela vaut également pour les modèles dits à double voie qui postulent l'existence d'un module de reconnaissance (globale) de mots- tels les logogens de Morton (1969; Patterson & Morton, 1985) - et d'un module de conversion des graphèmes en phonèmes qui présuppose donc au préalable la reconnaissance des lettres. Tous ces modèles s'inspirent du dispositif postulé initialement par Morton et se focalisent davantage sur les questions relatives à la conversion écrit-oral qu'à la reconnaissance visuelle. Tous débutent la description de la conversion écrit-oral avec les résultats des analyses visuelles dont ils ne spécifient pas la nature (Coltheart, 1981; Coltheart, Curtis, Atkins, & Haller, 1993) .

[51] Voir note (pages précédentes).

[52] Sans recourir à l'idée de la redondance du traitement perceptif.

[53] Il s'agit par exemple de convertir automatiquement le texte d'une feuille manuscrite (saisie au scanner) en document texte informatique pouvant être affiché à l'écran avec les caractères système de l'ordinateur (et non en tant qu'image), repris avec un traitement de texte ou imprimé. La reconnaissance off-line de l'écriture manuscrite a peu à voir avec la reconnaissance on-line où le texte manuscrit est saisi au fur et à mesure de l'écriture sur une tablette graphique. Dans ce dernier cas ce qui est analysé ce ne sont pas les propriétés spatiales d'une forme graphique (mot) mais la séquence et l'amplitude des mouvements du graphiste. La reconnaissance de l'écriture manuscrite ne peut être abordée avec les logiciels OCR (Optical Character Recognition) dont le principe est fondé sur un simple pattern-matching- principe tout à fait utilisable dans le cas des formes très régulières de l'imprimé.

[54] (Parisse, 1989) . La thèse d'Imadache, soutenue en 1990, portait sur la génération automatique, à partir d'un échantillon, des propriétés d'une écriture donnée sur un grand lexique. Ce travail basé sur la méthode d'approximation des contours et indispensable pour la poursuite de ce programme est plus spécifiquement lié à la reconnaissance automatique de l'écriture manuscrite.

[55] Par ailleurs il faut noter que les propriétés de l'entrée se définissent d'une façon diachronique au fur et à mesure du traitement. Ainsi toutes les propriétés physiques du signal ne constituent pas l'entrée initiale du système. Seules certaines de ces propriétés constituent l'entrée initiale, d'autres propriétés ne seront accessibles qu'à des stades ultérieurs (et certaines ne sont probablement jamais traitées).

[56] Si je décris avec autant de détails le travail d'Underwood et le débat qui s'ensuivit c'est qu'aux yeux de nombreux chercheurs il en est résulté que l'emplacement des fixations fovéales n'est déterminé que par des contingences oculomotrices, et que les propriétés orthographiques, morphologiques ou sémantiques du prochain mot n'y joue aucun rôle.

[57] Nous n'abordons pour l'instant que le concept de voisinage orthographique et non pas les travaux sur les effets du voisinage orthographique (cf. Andrews, 1992; Grainger, O'Regan, Jacobs, & Segui, 1989; Grainger, O'Regan, Jacobs, & Segui, 1992) sur lesquels nous reviendrons plus tard.

[58] Il est à noter que la longueur moyenne des mots du français hors contexte est d'environ 8,4 lettres et la longueur moyenne des mots dans un texte se situe entre 5,5 et 6 lettres. Cette différence s'explique par la fréquence d'usage d'articles, prépositions, pronoms et conjonctions qui sont en général des mots courts.

[59] L'effet global : F(1,53) = 25,03, p < 0,0001. 1^ère position : F(1,53) = 14,57, p < 0,0001; 3^ème position : F(1,53) = 14,75, p < 0,0001; 5^ème -7^ème position : F(1,53) = 4,10, p < 0,05.

[60] Il est difficile de lire réellement quelque chose qui n'a pas de sens.

[61] 18,5% vs. 9,48%; F(1,60) =10,2, p <0,005.

[62] Similarité (7,08) vs. voisinage (13,96), F(1,23) = 8,87, p < 0,01; similarité (7,08) vs. contrôle (13,34), F(1,23) = 17,78, p < 0,001.

[63] Il s'agit de la ´décision' de fixer un mot et non pas du locus de la fixation dans ce mot.

[64] Ce qui ne signifie pas qu'un mot non fixé ne pèse pas son poids dans le processus d'interprétation.

[65] F(1,19) = 13,45, p < 0,002.

[66] Ce pourcentage direct ne tient pas compte des régressions ni des fixations sur les blancs entre les mots.

[67] La détermination des mots à forme ambiguÎ et des 'letter slots discriminants' ne pourrait avoir lieu sans une mise en úuvre des connaissances orthographiques du lecteur.

[68] Par exemple au sens que Gurwitsch a donné à ces concepts. Voir Théorie du champ de la conscience (Gurwitsch, 1957) .

[69] Deux mots sur trois en ce qui concerne les mots de sept à dix lettres (c'est-à-dire essentiellement des mots pleins).

[70] Cette interprétation (au sens conventionnel de tout à l'heure) a été au demeurent dÝment attestée comme correcte au moyen d'un questionnaire.

[71] Le débat concernant la question de savoir si les sujets ´accèdent' au sens des mots en vision parafovéale illustre bien ce propos (Inhoff & Rayner, 1980; Rayner & Morris, 1992) . Si on prête quelque crédit à notre propos, la réponse devrait être à la fois oui et non, du moins tant que le verbe 'accéder' n'est pris que dans une acception très générale plutôt que comme dénotant un processus psychologique spécifique. A la question de savoir si une forme lexicale catégorisée en vision parafovéale a un sens, il est clair que la réponse est oui. Ce sens est toutefois trop général et indéfini pour pouvoir être considéré comme le sens du mot en question.