SÉMANTIQUE DES PARCOURS DES UTILISATEURS SUR LE WEB
Thomas BEAUVISAGE
France
Télécom
(Thèse, 2004 [*])
SOMMAIRE :
Introduction
I Appréhender la navigation sur le Web : questions,
méthodes, données, outils
Chapitre 1 Appréhender les parcours sur le
Web
1.1 Le parcours comme objet d’analyse
1.2 Au croisement de deux
dynamiques
Chapitre 2 Préparation et fouille des données
2.1 Données
de trafic « centrées-utilisateur »
2.2 Formatage des données pour l’analyse
de trafic
Chapitre 3 De l’URL au contenu
3.1 Les URL, porteuses
d’informations
3.2 Aspiration de pages
3.3 Utilisation des annuaires
Chapitre 4 Décrire et visualiser la dynamique des parcours
4.1
Outils de fouille des données
4.2 Analyser la séquentialité
4.3
Contextualisation
II Usages et comportements de navigation sur le Web
Chapitre 5 Contenus et formes de parcours
5.1 Description
des panels
5.2 Volumétrie, temporalité et topologie des parcours
5.3
Contenus des parcours
5.4 Profils de sessions
Chapitre 6 Navigation
en contexte
6.1 La session à l’aune de l’utilisateur
6.2 Sessions
en contexte
6.3 Le document numérique, l’usuel et l’œuvre
Conclusion,
perspectives
1. Modes de navigation
2. Données de trafic
3.
Pour aller plus loin
Bibliographie
Annexes :
Annexe
1 Projets
Annexe 2 Requêtes Web : mille-feuille technique
Annexe
3 Inverser la perspective
Annexe 4 Matériau d’enquête BibUsages
Annexe 5 Programmation
Glossaire
Télécharger
le fichier intégral (5 778 Ko)
Avertissement : Ce
texte est au format PDF. Munissez-vous d’Acrobat Reader
Résumé : Notre thèse a pour objectif de décrire les parcours sur le Web sur la base de données de trafic centrées-utilisateur. Nous proposons des méthodes et des outils pour enrichir de telles données de trafic, et les mettons en application pour construire une segmentation des parcours sur la base de leur forme, de leur temporalité, de leur contenu et de leur insertion dans les pratiques individuelles. Ce travail, mené au laboratoire Usages, Créativité, Ergonomie de France Télécom R&D, s’inscrit dans le projet SensNet qui vise à analyser les usages d’Internet à domicile.
La généralisation de l’accès à Internet en France entraîne une banalisation
et une normalisation des pratiques du Web. Pour autant, l’activité de navigation
reste mal connue : si l’analyse des logs des serveurs Web est maintenant bien
maîtrisée, celle des traces de navigation recueillies du côté de l’internaute
en situation naturelle demeure rare et complexe. Les données utilisées dans
cette étude centrée-utilisateur proviennent de sondes de recueil de trafic Internet
installées sur les postes des utilisateurs à domicile ; on obtient alors la
liste des URL visitées par chaque internaute, qui constitue le matériau premier
de l’étude. Sur cette base, nous proposons une description des parcours des
internautes de page en page et de site en site centrée sur la session. Cette
description intègre les informations sur les contenus visités d’une part et
les territoires personnels sur le Web d’autre part, et examine leur articulation
dynamique au sein des parcours.
Pour y parvenir, un premier travail consiste,
après une première mise en forme de ces données brutes, à les enrichir. Sur
le plan des contenus, nous proposons une méthode qui exploite les informations
fournies par les annuaires du Web pour qualifier les URL visitées. Adossée à
un module d’identification des services sur les portails généralistes développé
dans le cadre du projet SensNet, cette description permet d’appréhender l’offre
de contenus du Web dans sa diversité : informations, mais aussi services, outils,
fonctionnalités. Sur le plan de la navigation, nous élaborons des indicateurs
statistiques simples qui rendent compte de la forme, de la temporalité et du
rythme des parcours, à l’échelle de la page et du site. En complément de cette
approche macro, nous avons développé des outils de fouille manuelle des sessions
permettant de vérifier les résultats de l’approche quantitative et de formuler
des hypothèses sur les comportements des internautes. Ainsi dotés, nous disposons
des outils nécessaires pour observer, au sein de données volumineuses, les liens
entre forme et contenus des parcours, et mettre à jour des régularités dans
les pratiques des internautes.
Nous appliquons cet outillage à trois panels
: un panel représentatif de plus de 3 300 internautes en 2002, une cohorte de
600 personnes observées sur trois ans, et un panel restreint d’utilisateurs
des bibliothèques numériques. Ces trois sources de données complémentaires nous
amènent à établir une première typologie des sessions sur la base de leur forme
et de leur temporalité : les cinq parcours-type mis à jour s’opposent sur le
plan de leur durée, de leur forme et de leur rythmique, et montrent la grande
diversité des comportements.
Examinés sous l’angle des territoires personnels,
ces modes prototypiques de navigation prennent sens. Au sein d’espaces Web a
priori non bornés, les internautes dessinent des zones familières de taille
restreinte autour de thématiques propres à chacun. Trois zones distinctes sont
mises en évidence, auxquelles correspondent des modes d’activité et des types
de contenus spécifiques : le familier, orienté vers des contenus à fort taux
de renouvellement (flux d’information, services de communication), constitue
le noyau dur de l’activité de navigation, et induit des parcours routiniers
rapides et ciblés qui s’apparentent aux modes de consommation des média traditionnels
(télévision, radio, journaux). Le territoire occasionnel délimite des zones
visitées moins fréquemment, mais de manière régulière dans un contexte donné,
et cible les contenus de type service ou achat : dans ce cadre, les sessions
s’allongent et se complexifient, mais l’espace hypertextuel demeure connu et
maîtrisé. Enfin, les parcours de découverte amènent l’internaute à mobiliser
le Web comme ressource informationnelle ponctuelle de manière ciblée : dans
ces sessions où la ligne brisée domine, les moteurs de recherche dessinent un
espace de sites que l’utilisateur ne reverra plus pour la majorité d’entre eux.
Sur le plan méthodologique, ces résultats attestent la capacité de notre
outillage à décrire et expliquer les comportements de navigation sur le Web
; ils montrent également la nécessité pour une sémantique des parcours de tenir
compte des déterminations globales pour comprendre les comportements locaux,
et de mener l’étude des usages sous une angle praxéologique.
Sur le plan
des pratiques, on observe ainsi que le parcours Web est la résultante d’une
double dynamique, celle des contenus proposés et celle de l’utilisateur, dont
la confrontation induit des modalités d’activité qui dépendent autant des contenus
euxmêmes que de leur appréhension et de leur valorisation par l’utilisateur.
Loin de « surfer » au gré des hyperliens, l’internaute construit, au sein d’un
vaste espace hypertextuel, des zones restreintes de familiarité qui constituent
l’essentiel de ses pratiques sur le Web.
Abstract: This thesis aims at describing users’ paths through the Web on the basis of user-centric traffic data. We propose methods and tools to enrich traffic data, and apply them to build a segmentation of Web paths based on their shape, their temporality, their content and their place in individual practices. Our work took place in the Uses, Creativity, Ergonomics laboratory at France Telecom R&D, within a project named SensNet dealing with the analysis of domestic uses of the Web.
The generalization of Internet access in France leads to a normalization
of Web practices. However, the activity of Web browsing itself remains rather
unknown: while the analysis of Web servers access logs is now widely practiced,
those of user-centric real-world traffic data is still rare and complex. This
study relies on the analysis of data collected by probes installed on users’
computers at home, which provide the time-stamped list of all the urls visited
by each Internet user. On this basis, we propose a description of Web users’
paths through pages and sites centred on the session. This description integrates
information on the content of pages and sites as well as on personal territories
on the Web, and examines their dynamic articulation inside Web paths.
To
achieve this goal, after data preparation for the analysis, we have to enrich
them first. On the side of content description, we propose a method which exploits
information provided by Web directories to qualify the visited urls. Combined
with a module for identifying services on generalist portals developed within
the SensNet project, this description reflects the diversity of Web contents:
information, but also services, tools, functionalities. On the side of browsing,
we calculate robust statistical indicators which represent the form, the temporality
and the rhythm of Web paths, both at page-scale and site-scale. Beside this
macro approach, we developed tools for manually exploring sessions, that allow
to verify the results of quantitative approach and to formulate hypothesis concerning
Internet users’ behaviour. Thus, we have the necessary tools to observe inside
large datasets, links between paths’ topology and content, and to highlight
regularities within Web users’ practices.
We apply these tools to three panels:
a representative panel of more than 3.300 users in 2002, a cohort of 600 people
observed during three years, and a small panel of digital libraries users. These
three complementary datasets allow us to build a typology of sessions based
on their topology and their temporality: the five discovered types of paths
differ in terms of duration, form and rhythm, and demonstrate the great diversity
of browsing behaviours.
These prototypical modes of navigation make sense
when considered from the angle of personal Web territories. Within a priori
unlimited spaces, Web users outline small zones related to specific topics.
Three distinct zones are identified, which correspond to particular modes of
activity and content types: the familiar territory, oriented on regularly updated
contents (information streams and communication services), forms the core of
user’ browsing, and implicates fast and targeted routine paths related to traditional
mass media consuming modes (television, radio, newspapers). The occasional territory
refers to zones which are less often visited, but regularly in a given context,
and to service and e-commerce contents: in that case, Web paths are longer and
more complex, whereas the hypertextual space still remains well-known and under
control. Finally, in discovery paths, Internet users make use of the Web as
information resource for targeted searches: in these highly non-linear sessions,
search engines are often mobilized to explore Web spaces which will, for most
of them, never be visited again by the user.
On the methodological side, these results attest the ability of our tools
to describe and explain navigation behaviours on the Web; they also demonstrate
the necessity for a semantics of Web paths to take into account global factors
to understand local behaviours, and to have a praxeological approach of usage
studies.
On the side of practices, we observe that a Web path results from
a two dynamics: the one of the proposed contents by Web sites, and the one of
the user. Their confrontation in context implicate distinct modes of activity
which depend as much on the visited contents as on their reception and their
valuation by the user. Far from wildly “surfing” the Internet from link to link,
Web users define, within a vast hypertextual space, restricted familiar zones
that constitute the core of their practices on the Web.
[*] Thèse de Doctorat présentée et soutenue le 20 octobre 2004 devant un Jury composé de Houssem Assadi, Dominique Boullier, Benoît Habert, Ludovic Lebart, François Rastier, Pierre Zweigenbaum.
Vous pouvez adresser vos commentaires et suggestions à : thomas.beauvisage@francetelecom.com