SEMANTIQUE DES PARCOURS DES UTILISATEURS SUR LE WEB

Thomas BEAUVISAGE

(Résumé de thèse)

NB. La soutenance de la thèse aura lieu le 20 octobre 2004 [*]

Notre thèse a pour objectif de décrire les parcours sur le Web sur la base de données de trafic centrées-utilisateur. Nous proposons des méthodes et des outils pour enrichir de telles données de trafic, et les mettons en application pour construire une segmentation des parcours sur la base de leur forme, de leur temporalité, de leur contenu et de leur insertion dans les pratiques individuelles. Ce travail, mené au laboratoire Usages, Créativité, Ergonomie de France Télécom R&D, s'inscrit dans le projet SensNet qui vise à analyser les usages d'Internet à domicile.

La généralisation de l'accès à Internet en France entraîne une banalisation et une normalisation des pratiques du Web. Pour autant, l'activité de navigation reste mal connue : si l'analyse des logs des serveurs Web est maintenant bien maîtrisée, celle des traces de navigation recueillies du côté de l'internaute en situation naturelle demeure rare et complexe. Les données utilisées dans cette étude centrée-utilisateur proviennent de sondes de recueil de trafic Internet installées sur les postes des utilisateurs à domicile ; on obtient alors la liste des URL visitées par chaque internaute, qui constitue le matériau premier de l'étude. Sur cette base, nous proposons une description des parcours des internautes de page en page et de site en site centrée sur la session. Cette description intègre les informations sur les contenus visités d'une part et les territoires personnels sur le Web d'autre part, et examine leur articulation dynamique au sein des parcours.

Pour y parvenir, un premier travail consiste, après une première mise en forme de ces données brutes, à les enrichir. Sur le plan des contenus, nous proposons une méthode qui exploite les informations fournies par les annuaires du Web pour qualifier les URL visitées. Adossée à un module d'identification des services sur les portails généralistes développé dans le cadre du projet SensNet, cette description permet d'appréhender l'offre de contenus du Web dans sa diversité : informations, mais aussi services, outils, fonctionnalités. Sur le plan de la navigation, nous élaborons des indicateurs statistiques simples qui rendent compte de la forme, de la temporalité et du rythme des parcours, à l'échelle de la page et du site. En complément de cette approche macro, nous avons développé des outils de fouille manuelle des sessions permettant de vérifier les résultats de l'approche quantitative et de formuler des hypothèses sur les comportements des internautes. Ainsi dotés, nous disposons des outils nécessaires pour observer, au sein de données volumineuses, les liens entre forme et contenus des parcours, et mettre à jour des régularités dans les pratiques des internautes.  

Nous appliquons cet outillage à trois panels : un panel représentatif de plus de 3 300 internautes en 2002, une cohorte de 600 personnes observées sur trois ans, et un panel restreint d'utilisateurs des bibliothèques numériques. Ces trois sources de données complémentaires nous amènent à établir une première typologie des sessions sur la base de leur forme et de leur temporalité : les cinq parcours-type mis à jour s'opposent sur le plan de leur durée, de leur forme et de leur rythmique, et montrent la grande diversité des comportements. Examinés sous l'angle des territoires personnels, ces modes prototypiques de navigation prennent sens. Au sein d'espaces Web a priori non bornés, les internautes dessinent des zones familières de taille restreinte autour de thématiques propres à chacun. Trois zones distinctes sont mises en évidence, auxquelles correspondent des modes d'activité et des types de contenus spécifiques : le familier, orienté vers des contenus à fort taux de renouvellement (flux d'information, services de communication), constitue le noyau dur de l'activité de navigation, et induit des parcours routiniers rapides et ciblés qui s'apparentent aux modes de consommation des média traditionnels (télévision, radio, journaux). Le territoire occasionnel délimite des zones visitées moins fréquemment, mais de manière régulière dans un contexte donné, et cible les contenus de type service ou achat : dans ce cadre, les sessions s'allongent et se complexifient, mais l'espace hypertextuel demeure connu et maîtrisé. Enfin, les parcours de découverte amènent l'internaute à mobiliser le Web comme ressource informationnelle ponctuelle de manière ciblée : dans ces sessions où la ligne brisée domine, les moteurs de recherche dessinent un espace de sites que l'utilisateur ne reverra plus pour la majorité d'entre eux.  

Sur le plan méthodologique, ces résultats attestent la capacité de notre outillage à décrire et expliquer les comportements de navigation sur le Web ; ils montrent également la nécessité pour une sémantique des parcours de tenir compte des déterminations globales pour comprendre les comportements locaux, et de mener l'étude des usages sous un angle praxéologique.  

Sur le plan des pratiques, on observe ainsi que le parcours Web est la résultante d'une double dynamique, celle des contenus proposés et celle de l'utilisateur, dont la confrontation induit des modalités d'activité qui dépendent autant des contenus eux-mêmes que de leur appréhension et de leur valorisation par l'utilisateur. Loin de "surfer" au gré des hyperliens, l'internaute construit, au sein d'un vaste espace hypertextuel, des zones restreintes de familiarité qui constituent l'essentiel de ses pratiques sur le Web.  


 2004