Techniques avancées de recherche
documentaire sur Internet
Formateur : Robert Bourgoing
1 - La problématique
de la recherche sur Internet
2 - Les moteurs de recherche
3 - L'interrogation des moteurs de recherche
4 - Les annuaires
5 - L'interrogation des annuaires
6 - Les métamoteurs de recherche, embryons d'agents
intelligents
7 - Usenet et les autres sources et outils de recherche
d'information sur Internet
8 - La méthodologie de la recherche sur Internet
9 - La validation des sources sur Internet
10 - L'organisation d'un travail de veille
1 - La problématique
de la recherche sur Internet
1.1 Portrait actuel
d'Internet
1.1.1
Rappel des caractéristiques principales d'Internet, "réseau
des réseaux"
1.1.2 La taille du web "visible" et celle du web "invisible"
ou "profond"
1.2 La problématique
de la recherche d'infos sur Internet
1.2.1
Une information difficile à traiter...
1.2.1.1
...trop abondante (accroissement exponentiel du web)
1.2.1.2 ...sans cesse renouvelée
1.2.1.3 ...pas toujours fiable
1.2.2 Des sources
multiformes (web, formats exotiques et bases de données, news,
ftp, gopher, telnet)...
1.2.3 Des outils encore rudimentaires...
1.2.3.1
...hybrides, peu intuitifs et difficiles à maîtriser
1.2.3.2 ...ne parlant pas tous la même langue
1.2.3.3 ...ne recensant pas les mêmes documents
Haut
de page
2 - Les
moteurs de recherche
2.1 Qu'est-ce qu'un
moteur de recherche ?
2.2 Comment fonctionne un moteur de recherche ?
2.2.1
Première étape : la collecte des pages
2.2.1.1
Le repérage d'une page web par les "robots"...
2.2.1.1.1
...suite à un référencement manuel
2.2.1.1.2 ...par des liens externes pointant vers la page
2.2.1.2 Les éléments
enregistrés par le robot collecteur
2.2.1.2.1
Le texte affiché dans le navigateur
2.2.1.2.2 Les autres éléments de texte contenus dans
le code source
2.2.1.2.2.1 Le titre de la page
2.2.1.2.2.2 Le titre des images
2.2.1.2.2.3 Le nom des fichiers images et sons
2.2.1.2.2.4 Les adresses hypertexte
2.2.1.2.2.5 Les balises méta (mots-clés, auteur,
etc.)
2.2.1.2.3 Les
images et la mise en page (mémoire cache de Google)
2.2.2 Deuxième
étape : l'indexation
2.2.2.1
La création d'un premier index
2.2.2.2 La création d'un index inversé
2.2.3 Troisième
étape : le traitement des requêtes et le classement des
réponses
2.2.3.1
Les critères de classement des réponses
2.2.3.1.1
L'indice de densité d'un mot
2.2.3.1.2 L'indice de popularité d'une page
2.2.3.1.3 La position des mots recherchés dans le document
2.2.3.1.4 La présence de tous les mots recherchés
2.2.3.1.5 La proximité des mots entre eux
2.2.3.1.6 La date de dernière mise à jour de la page
2.2.3.1.7 Les choix des utilisateurs à la recherche des mêmes
mots
2.2.3.2 Le "spamdexing"
: la cyberguerre entre opérateurs de moteurs et promoteurs
de sites
2.2.3.2.1
Les moyens de tricher
2.2.3.2.2 La riposte des responsables de moteurs de recherche
2.3 Les moteurs généralistes
(Altavista, Google, Voila, Lycos, etc.)
2.4 Les moteurs spécialisés
2.4.1
Les moteurs de groupes de discussion, de listes de diffusion et de web
forums
2.4.2 Les moteurs d'actualités
2.4.3 Les moteurs régionaux
2.4.4 Les moteurs sectoriels (par secteurs d'activités)
2.4.5 Les autres moteurs spécialisés (pour gophers, ftp,
email, telnet...)
2.5 Les avantages des moteurs
2.6 Les limites des moteurs
2.6.1
La croissance exponentielle du web
2.6.2 Le web "invisible" : celui que les moteurs ne voient
pas
2.6.2.1
Les bases de données
2.6.2.2 Les pages web dynamiques
2.6.2.3 Les documents accessibles par mots de passe
2.6.2.4 Les formats de fichiers autres que le html (pdf, doc, etc.)
2.6.3 La capacité
de jugement rudimentaire des moteurs
Haut
de page
3 - L'interrogation des moteurs de recherche
3.1 Introduction
: exemple d'un problème de recherche...
3.2 Les mots-clés
3.2.1
Les verbes et les adjectifs
3.2.2 La casse
3.2.3 Le pluriel, le genre et la troncature (joker)
3.2.4 Les synonymes
3.2.5 Les phrases et les guillemets
3.2.6 L'ordre des mots de la requête
3.2.7 La langue des requêtes
3.2.8 Les mots "interdits" ou "stop words"
3.2 La syntaxe des requêtes
3.2.1
Les requêtes simples
3.2.2 Les requêtes évoluées ou la recherche avancée
3.3 L'algèbre de Boole
3.3.1
Génaralités sur les opérateurs booléens
3.3.2 AND (ET ou +)
3.3.3 OR (OU ou "espace vide)
3.3.4 AND NOT (SAUF ou -)
3.3.5 NEAR (PRES)
3.3.6 Les parenthèses et les phrases logiques
3.4 Exercices pratiques avec
Altavista
3.5 Les limiteurs de champ
3.5.1
"title:"
3.5.2 "domain:" (plus d'explications dans la partie validation)
3.5.3 "host:"
3.5.4 "url:"
3.5.5 "txt:"
3.5.6 "anchor:"
3.5.7 "link:"
3.5.8 "image:"
3.6 L'affichage des résultats
(recherche avancée)...
3.6.1
...par dates
3.6.2 ...par mot-clé
3.6.3 ...par site
3.7 Les requêtes en langage
naturel et l'avenir des moteurs
3.8 Exercices
Haut
de page
4 - Les annuaires
4.1 Qu'est-ce qu'un
"annuaire", "répertoire" ou "catalogue" ?
4.2 Annuaire ou moteur, des différences fondamentales
4.2.1
La recherche de sites web vs la recherche de pages web
4.2.2 Index créés par des humains vs ceux constitués
par des machines
4.3 Les différents types
d'annuaires
4.3.1
Les annuaires généralistes
4.3.2 Les annuaires spécialisés
4.3.2.1
Les annuaires... d'annuaires et d'outils de recherche
4.3.2.2 Les annuaires régionaux
4.3.2.3 Les annuaires du web invisible (bases de données)
4.3.2.4 Les annuaires de listes de diffusion, groupes de discussions
et webforums
4.3.2.5 Les annuaires graphiques et multimédia
4.3.2.6 Autres exemples (annuaires de logiciels, de signets, de webrings,
etc.)
4.4 Les avantages des annuaires
(sites validés par des humains, classés géographiquement,
etc.)
4.5 Les limites des annuaires (champ d'application des requêtes,
manque d'exhaustivité, etc.)
4.6 Visite guidée de Yahoo! France
Haut
de page
5 - L'interrogation des annuaires
5.1 La recherche
intuitive (en se laissant guider par le classement proposé)
5.2 La recherche à l'aide du moteur de recherche interne
5.2.1
La syntaxe des requêtes
5.2.2 Le filtrage à l'aide des catégories
5.3 La recherche avancée
5.4 Exercices (à l'aide de Yahoo!)
Haut
de page
6 - Les métamoteurs
de recherche, embryons d'agents intelligents
6.1 Qu'est-ce qu'un
agent intelligent ?
6.2 Les principales caractéristiques d'un agent intelligent
6.2.1
L'autonomie
6.2.2 La capacité de collaboration
6.2.3 La capacité d'apprentissage
6.2.4 La mobilité
6.3 Les agents sur Internet
6.4 Les métamoteurs "online"
6.4.1
Les avantages
6.4.2 Les limites
6.5 Les métamoteurs offline
6.5.1
Les avantages
6.5.2 Les limites
6.5.3 Découverte de Copernic et exercices pratiques
6.6 Les agents de recherche
avancés
6.7 Les agents pour la veille
6.7.1
Les agents "pull"
6.7.2 Les agents "push"
6.7.2.1
Les agents push online
6.7.2.2 Les agents push offline
6.8 Exercices
Haut
de page
7 - Usenet
et les autres sources et outils de recherche d'information sur Internet
7.1 Les forums de
discussion
7.1.1
Les différentes utilisations de Usenet pour les journalistes...
7.1.1.1
...pour poser des questions
7.1.1.2 ...pour trouver un spécialiste
7.1.1.3 ...pour établir le profil d'une personne à partir
de ses interventions passées
7.1.1.4 ...pour prendre le pouls des internautes sur certains sujets
d'actualité
7.1.2 Présentation
de Usenet
7.1.2.1
L'organisation de Usenet
7.1.2.2 La hiérarchie générale
7.1.2.3 La hiérarchie française
7.1.2.4 La netiquette
7.1.3 Usenet à
partir d'un logiciel dédié
7.1.4 Usenet à partir du web
7.1.5 La recherche sur Usenet avec GoogleGroups
7.1.5.1
L'annuaire GoogleGroups
7.1.5.2 La recherche simple
7.1.5.3 La recherche avancée
7.1.6 Exercices
7.2 Les listes (de diffusion
et de discussion) comme sources d'infos.
7.3 Les autres protocoles : FTP (et Archie), Gopher (et Veronica),
Telnet, WAIS
7.4 Les technologies de partage de fichiers : Napster, Gnutella et
autres
Haut
de page
8 - La méthodologie de la recherche sur Internet
8.1 L'organisation
du travail de recherche au quotidien
8.1.1
La constitution et la gestion d'un carnet de sites favoris ou signets
8.1.2 Les trucs qui facilitent la navigation (raccourcis claviers et
menus contextuels)
8.1.3 La gestion du courrier électronique et des abonnements
à des listes (création de dossiers et de sous-dossiers,
création de règles de message, etc.)
8.1.4 Le paramétrage du navigateur
8.1.5 L'installation de logiciels périphériques et utilitaires
8.2 Entre les "fourmis"
et les "sauterelles", à chacun son style...
8.3 Les étapes de la recherche
8.3.1
Déterminer l'objectif précis de la recherche
8.3.2 Se fixer un délai maximum pour trouver l'info
8.3.3 Evaluer là où l'info a le plus de chance de se
trouver (document papier -journal, livre, magazine, dictionnaire, etc-,
web, usenet, base de données, etc. ?)
8.3.4 Choisir l'outil de recherche le plus approprié (téléphone,
minitel, moteur, annuaire, métamoteur, outil généraliste
ou spécialisé ?)
8.3.5 Définir des mots-clés (choisir la langue de la
requête, soigner l'orthographe, trouver des synonymes, consulter
les balises meta pour trouver des mots-clés associés,
etc.)
8.3.6 Bien rédiger la requête avec les bons opérateurs
booléens et limiteurs de champ
8.3.7 Eviter de se disperser
8.3.8 Restreindre le champ de recherche (avec les limiteurs de champ,
de date, etc.)
8.3.9 Utiliser les premiers éléments de réponse
pour affiner la recherche
8.3.10 Etre prêt à recommencer si le temps le permet...
8.4 Quelques trucs et astuces
pour la recherche...
8.4.1
...d'une personne
8.4.1.1
Adresse email
8.4.1.2 Coordonnées physiques (tél., fax, adresse)
8.4.1.3 Spécialiste
8.4.2 ...d'une société
8.4.2.1
Site web
8.4.2.2 Coordonnées
8.4.2.3 Infos sur un produit
8.4.3 ...de l'auteur et/ou du propriétaire d'un site web
8.4.4 ...d'un logiciel
8.5 Exercices
Haut
de page
9 - La validation
des sources sur Internet
9.1 Le problème
de la qualité des ressources sur Internet
9.2 La validation de l'information, un travail de détective
9.3 Les indices de validité
9.3.1
Comment décrypter une adresse URL
9.3.1.1
La structure de l'adresse URL
9.3.1.2 Les indices éloquents (le tilde, les domaines gouvernementaux,
régionaux...)
9.3.1.3 Les détails trompeurs (les domaines .org, .com, .net,
etc.)
9.3.1.4 Utiliser l'URL pour s'orienter dans un site web
9.3.2 L'auteur de
l'information
9.3.2.1
Le document contient-il ses coordonnées ?
9.3.2.2 S'exprime-t-il en son nom propre ou celui de son organisation ?
9.3.3.3 Qui est-il ?
9.3.3.4 Est-il reconnu dans sa discipline ?
9.3.3.5 Le document est-il cité par un autre document fiable ?
9.3.3 L'organisation
à l'origine du site
9.3.3.1
Le document contient-il ses coordonnées ? Peut-on lui écrire ?
9.3.3.2 Les boutons "A propos de ce site", "Qui sommes-nous ?"
ou "FAQ"
9.3.3.3 Comment vérifier qui est propriétaire du nom
de domaine ?
9.3.3.4 L'organisation a-t-elle des intérêts financiers
liés au sujet traité ?
9.3.3.5 Qui est propriétaire de l'organisation ?
9.3.4 Les sources
9.3.4.1
L'information est-elle primaire ou secondaire ?
9.3.4.2 Les sources utilisées sont-elles clairement identifiées
?
9.3.4.3 Si le site fait appel à des cadres, leur contenu
provient-il du même site ?
9.3.4.4 Les liens proposés sont-ils évalués ?
cohérents avec le contenu du site ? toujours valides ?
9.3.4.5 Le document contient-il une bibliographie ?
9.3.4.6 Comment vérifier s'il y a eu plagiat ?
9.3.5 La fraîcheur
de l'info
9.3.5.1
Y a-t-il une indication claire de la date à laquelle le document
a été rédigé ?
9.3.5.2 Connaît-on la date de première publication ?
9.3.5.3 Que peut-on conclure de la "date de dernière mise
à jour" ?
9.3.6 La validité
de l'info
9.3.6.1
L'information a-t-elle été filtrée par un tiers ?
9.3.6.1.1
L'auteur s'appuie-t-il sur des données déjà
publiées ?
9.3.6.1.2 Les textes sont-ils rédigés dans une langue
correcte ?
9.3.6.2 L'information
est-elle bien fouillée et précise ?
9.3.7 Le site
9.3.7.1
Quelle est l'audience du site ?
9.3.7.1.1
Que penser des statistiques de fréquentation d'un site ?
9.3.7.1.2 Comment mesurer la "popularité" d'un
site ?
9.3.7.2 Quels
sont les buts et objectifs du site ?
9.3.7.3 Le format et le traitement sont-ils dans les règles
de l'art ?
9.4 Exercices
Haut
de page
10 - L'organisation
d'un travail de veille (à venir...)
|