Techniques avancées de recherche d'information sur Internet

Techniques avancées de recherche
documentaire sur Internet

Formateur : Robert Bourgoing

1 - La problématique de la recherche sur Internet
2 - Les moteurs de recherche
3 - L'interrogation des moteurs de recherche
4 - Les annuaires
5 - L'interrogation des annuaires
6 - Les métamoteurs de recherche, embryons d'agents intelligents
7 - Usenet et les autres sources et outils de recherche d'information sur Internet
8 - La méthodologie de la recherche sur Internet
9 - La validation des sources sur Internet
10 - L'organisation d'un travail de veille

1 - La problématique de la recherche sur Internet

1.1 Portrait actuel d'Internet
1.1.1 Rappel des caractéristiques principales d'Internet, "réseau des réseaux"
1.1.2 La taille du web "visible" et celle du web "invisible" ou "profond"
1.2 La problématique de la recherche d'infos sur Internet
1.2.1 Une information difficile à traiter...
1.2.1.1 ...trop abondante (accroissement exponentiel du web)
1.2.1.2 ...sans cesse renouvelée
1.2.1.3 ...pas toujours fiable
1.2.2 Des sources multiformes (web, formats exotiques et bases de données, news, ftp, gopher, telnet)...
1.2.3 Des outils encore rudimentaires...
1.2.3.1 ...hybrides, peu intuitifs et difficiles à maîtriser
1.2.3.2 ...ne parlant pas tous la même langue
1.2.3.3 ...ne recensant pas les mêmes documents

Haut de page

2 - Les moteurs de recherche

2.1 Qu'est-ce qu'un moteur de recherche ?
2.2 Comment fonctionne un moteur de recherche ?
2.2.1 Première étape : la collecte des pages
2.2.1.1 Le repérage d'une page web par les "robots"...
2.2.1.1.1 ...suite à un référencement manuel
2.2.1.1.2 ...par des liens externes pointant vers la page
2.2.1.2 Les éléments enregistrés par le robot collecteur
2.2.1.2.1 Le texte affiché dans le navigateur
2.2.1.2.2 Les autres éléments de texte contenus dans le code source
2.2.1.2.2.1 Le titre de la page
2.2.1.2.2.2 Le titre des images
2.2.1.2.2.3 Le nom des fichiers images et sons
2.2.1.2.2.4 Les adresses hypertexte
2.2.1.2.2.5 Les balises méta (mots-clés, auteur, etc.)
2.2.1.2.3 Les images et la mise en page (mémoire cache de Google)

2.2.2 Deuxième étape : l'indexation
2.2.2.1 La création d'un premier index
2.2.2.2 La création d'un index inversé
2.2.3 Troisième étape : le traitement des requêtes et le classement des réponses
2.2.3.1 Les critères de classement des réponses
2.2.3.1.1 L'indice de densité d'un mot
2.2.3.1.2 L'indice de popularité d'une page
2.2.3.1.3 La position des mots recherchés dans le document
2.2.3.1.4 La présence de tous les mots recherchés
2.2.3.1.5 La proximité des mots entre eux
2.2.3.1.6 La date de dernière mise à jour de la page
2.2.3.1.7 Les choix des utilisateurs à la recherche des mêmes mots
2.2.3.2 Le "spamdexing" : la cyberguerre entre opérateurs de moteurs et promoteurs de sites
2.2.3.2.1 Les moyens de tricher
2.2.3.2.2 La riposte des responsables de moteurs de recherche

2.3 Les moteurs généralistes (Altavista, Google, Voila, Lycos, etc.)
2.4 Les moteurs spécialisés
2.4.1 Les moteurs de groupes de discussion, de listes de diffusion et de web forums
2.4.2 Les moteurs d'actualités
2.4.3 Les moteurs régionaux
2.4.4 Les moteurs sectoriels (par secteurs d'activités)
2.4.5 Les autres moteurs spécialisés (pour gophers, ftp, email, telnet...)
2.5 Les avantages des moteurs
2.6 Les limites des moteurs
2.6.1 La croissance exponentielle du web
2.6.2 Le web "invisible" : celui que les moteurs ne voient pas
2.6.2.1 Les bases de données
2.6.2.2 Les pages web dynamiques
2.6.2.3 Les documents accessibles par mots de passe
2.6.2.4 Les formats de fichiers autres que le html (pdf, doc, etc.)
2.6.3 La capacité de jugement rudimentaire des moteurs

Haut de page

3 - L'interrogation des moteurs de recherche

3.1 Introduction : exemple d'un problème de recherche...
3.2 Les mots-clés
3.2.1 Les verbes et les adjectifs
3.2.2 La casse
3.2.3 Le pluriel, le genre et la troncature (joker)
3.2.4 Les synonymes
3.2.5 Les phrases et les guillemets
3.2.6 L'ordre des mots de la requête
3.2.7 La langue des requêtes
3.2.8 Les mots "interdits" ou "stop words"
3.2 La syntaxe des requêtes
3.2.1 Les requêtes simples
3.2.2 Les requêtes évoluées ou la recherche avancée
3.3 L'algèbre de Boole
3.3.1 Génaralités sur les opérateurs booléens
3.3.2 AND (ET ou +)
3.3.3 OR (OU ou "espace vide)
3.3.4 AND NOT (SAUF ou -)
3.3.5 NEAR (PRES)
3.3.6 Les parenthèses et les phrases logiques
3.4 Exercices pratiques avec Altavista
3.5 Les limiteurs de champ
3.5.1   "title:"
3.5.2   "domain:" (plus d'explications dans la partie validation)
3.5.3   "host:"
3.5.4   "url:"
3.5.5   "txt:"
3.5.6   "anchor:"
3.5.7   "link:"
3.5.8   "image:"
3.6 L'affichage des résultats (recherche avancée)...
3.6.1 ...par dates
3.6.2 ...par mot-clé
3.6.3 ...par site
3.7 Les requêtes en langage naturel et l'avenir des moteurs
3.8 Exercices

Haut de page
4 - Les annuaires

4.1 Qu'est-ce qu'un "annuaire", "répertoire" ou "catalogue" ?
4.2 Annuaire ou moteur, des différences fondamentales
4.2.1 La recherche de sites web vs la recherche de pages web
4.2.2 Index créés par des humains vs ceux constitués par des machines
4.3 Les différents types d'annuaires
4.3.1 Les annuaires généralistes
4.3.2 Les annuaires spécialisés
4.3.2.1 Les annuaires... d'annuaires et d'outils de recherche
4.3.2.2 Les annuaires régionaux
4.3.2.3 Les annuaires du web invisible (bases de données)
4.3.2.4 Les annuaires de listes de diffusion, groupes de discussions et webforums
4.3.2.5 Les annuaires graphiques et multimédia
4.3.2.6 Autres exemples (annuaires de logiciels, de signets, de webrings, etc.)

4.4 Les avantages des annuaires (sites validés par des humains, classés géographiquement, etc.)
4.5 Les limites des annuaires (champ d'application des requêtes, manque d'exhaustivité, etc.)
4.6 Visite guidée de Yahoo! France

Haut de page

5 - L'interrogation des annuaires

5.1 La recherche intuitive (en se laissant guider par le classement proposé)
5.2 La recherche à l'aide du moteur de recherche interne
5.2.1 La syntaxe des requêtes
5.2.2 Le filtrage à l'aide des catégories
5.3 La recherche avancée
5.4 Exercices (à l'aide de Yahoo!)

Haut de page

6 - Les métamoteurs de recherche, embryons d'agents intelligents

6.1 Qu'est-ce qu'un agent intelligent ?
6.2 Les principales caractéristiques d'un agent intelligent
6.2.1 L'autonomie
6.2.2 La capacité de collaboration
6.2.3 La capacité d'apprentissage
6.2.4 La mobilité
6.3 Les agents sur Internet
6.4 Les métamoteurs "online"
6.4.1 Les avantages
6.4.2 Les limites
6.5 Les métamoteurs offline
6.5.1 Les avantages
6.5.2 Les limites
6.5.3 Découverte de Copernic et exercices pratiques
6.6 Les agents de recherche avancés
6.7 Les agents pour la veille
6.7.1 Les agents "pull"
6.7.2 Les agents "push"
6.7.2.1 Les agents push online
6.7.2.2 Les agents push offline

6.8 Exercices

Haut de page

7 - Usenet et les autres sources et outils de recherche d'information sur Internet

7.1 Les forums de discussion
7.1.1 Les différentes utilisations de Usenet pour les journalistes...
7.1.1.1 ...pour poser des questions
7.1.1.2 ...pour trouver un spécialiste
7.1.1.3 ...pour établir le profil d'une personne à partir de ses interventions passées
7.1.1.4 ...pour prendre le pouls des internautes sur certains sujets d'actualité
7.1.2 Présentation de Usenet
7.1.2.1 L'organisation de Usenet
7.1.2.2 La hiérarchie générale
7.1.2.3 La hiérarchie française
7.1.2.4 La netiquette
7.1.3 Usenet à partir d'un logiciel dédié
7.1.4 Usenet à partir du web
7.1.5 La recherche sur Usenet avec GoogleGroups
7.1.5.1 L'annuaire GoogleGroups
7.1.5.2 La recherche simple
7.1.5.3 La recherche avancée
7.1.6 Exercices
7.2 Les listes (de diffusion et de discussion) comme sources d'infos.
7.3 Les autres protocoles : FTP (et Archie), Gopher (et Veronica), Telnet, WAIS
7.4 Les technologies de partage de fichiers : Napster, Gnutella et autres

Haut de page

8 - La méthodologie de la recherche sur Internet

8.1 L'organisation du travail de recherche au quotidien
8.1.1 La constitution et la gestion d'un carnet de sites favoris ou signets
8.1.2 Les trucs qui facilitent la navigation (raccourcis claviers et menus contextuels)
8.1.3 La gestion du courrier électronique et des abonnements à des listes (création de dossiers et de sous-dossiers, création de règles de message, etc.)
8.1.4 Le paramétrage du navigateur
8.1.5 L'installation de logiciels périphériques et utilitaires
8.2 Entre les "fourmis" et les "sauterelles", à chacun son style...
8.3 Les étapes de la recherche
8.3.1 Déterminer l'objectif précis de la recherche
8.3.2 Se fixer un délai maximum pour trouver l'info
8.3.3 Evaluer là où l'info a le plus de chance de se trouver (document papier -journal, livre, magazine, dictionnaire, etc-, web, usenet, base de données, etc. ?)
8.3.4 Choisir l'outil de recherche le plus approprié (téléphone, minitel, moteur, annuaire, métamoteur, outil généraliste ou spécialisé ?)
8.3.5 Définir des mots-clés (choisir la langue de la requête, soigner l'orthographe, trouver des synonymes, consulter les balises meta pour trouver des mots-clés associés, etc.)
8.3.6 Bien rédiger la requête avec les bons opérateurs booléens et limiteurs de champ
8.3.7 Eviter de se disperser
8.3.8 Restreindre le champ de recherche (avec les limiteurs de champ, de date, etc.)
8.3.9 Utiliser les premiers éléments de réponse pour affiner la recherche
8.3.10 Etre prêt à recommencer si le temps le permet...
8.4 Quelques trucs et astuces pour la recherche...
8.4.1 ...d'une personne

8.4.1.1 Adresse email
8.4.1.2 Coordonnées physiques (tél., fax, adresse)
8.4.1.3 Spécialiste
8.4.2 ...d'une société
8.4.2.1 Site web
8.4.2.2 Coordonnées
8.4.2.3 Infos sur un produit
8.4.3 ...de l'auteur et/ou du propriétaire d'un site web
8.4.4 ...d'un logiciel

8.5 Exercices

Haut de page

9 - La validation des sources sur Internet

9.1 Le problème de la qualité des ressources sur Internet
9.2 La validation de l'information, un travail de détective
9.3 Les indices de validité
9.3.1 Comment décrypter une adresse URL
9.3.1.1 La structure de l'adresse URL
9.3.1.2 Les indices éloquents (le tilde, les domaines gouvernementaux, régionaux...)
9.3.1.3 Les détails trompeurs (les domaines .org, .com, .net, etc.)
9.3.1.4 Utiliser l'URL pour s'orienter dans un site web
9.3.2 L'auteur de l'information
9.3.2.1 Le document contient-il ses coordonnées ?
9.3.2.2 S'exprime-t-il en son nom propre ou celui de son organisation ?
9.3.3.3 Qui est-il ?
9.3.3.4 Est-il reconnu dans sa discipline ?
9.3.3.5 Le document est-il cité par un autre document fiable ?
9.3.3 L'organisation à l'origine du site
9.3.3.1 Le document contient-il ses coordonnées ? Peut-on lui écrire ?
9.3.3.2 Les boutons "A propos de ce site", "Qui sommes-nous ?" ou "FAQ"
9.3.3.3 Comment vérifier qui est propriétaire du nom de domaine ?
9.3.3.4 L'organisation a-t-elle des intérêts financiers liés au sujet traité ?
9.3.3.5 Qui est propriétaire de l'organisation ?
9.3.4 Les sources
9.3.4.1 L'information est-elle primaire ou secondaire ?
9.3.4.2 Les sources utilisées sont-elles clairement identifiées ?
9.3.4.3 Si le site fait appel à des cadres, leur contenu provient-il du même site ?
9.3.4.4 Les liens proposés sont-ils évalués ? cohérents avec le contenu du site ? toujours valides ?
9.3.4.5 Le document contient-il une bibliographie ?
9.3.4.6 Comment vérifier s'il y a eu plagiat ?
9.3.5 La fraîcheur de l'info
9.3.5.1 Y a-t-il une indication claire de la date à laquelle le document a été rédigé ?
9.3.5.2 Connaît-on la date de première publication ?
9.3.5.3 Que peut-on conclure de la "date de dernière mise à jour" ?
9.3.6 La validité de l'info
9.3.6.1 L'information a-t-elle été filtrée par un tiers ?
9.3.6.1.1 L'auteur s'appuie-t-il sur des données déjà publiées ?
9.3.6.1.2 Les textes sont-ils rédigés dans une langue correcte ?
9.3.6.2 L'information est-elle bien fouillée et précise ?
9.3.7 Le site
9.3.7.1 Quelle est l'audience du site ?
9.3.7.1.1 Que penser des statistiques de fréquentation d'un site ?
9.3.7.1.2 Comment mesurer la "popularité" d'un site ?
9.3.7.2 Quels sont les buts et objectifs du site ?
9.3.7.3 Le format et le traitement sont-ils dans les règles de l'art ?

9.4 Exercices

Haut de page

10 - L'organisation d'un travail de veille (à venir...)

AddFreeStats.com Free Web Stats in real-time !

Techniques avancées de recherche documentaire sur Internet

Formateur : Robert Bourgoing

Techniques avancées de recherche
documentaire sur Internet