La recherche utile sur Internet

http://perso.wanadoo.fr/stephane.cottin/defense.html 

version RTF pour impression (100 ko)

École Supérieur du Commerce Extérieur
module intelligence économique et maîtrise de l'information (Véronique Mesguish)

Formation du 25 janvier 2001
Guy Cleret - Stéphane Cottin, Conseil constitutionnel

Problématique générale : A-t-on un quelconque intérêt à rechercher de l'information sur Internet ? (est-ce mieux, plus riche, plus rapide, moins cher, différent...?)

 

Qu'est ce qu'on trouve sur Internet ?

Comment trouver de l'information sur Internet ?

 

Qu'est ce qu'on trouve sur Internet ?

1.    Les contenus

A. Le mail : rappel = Internet a été créé pour ça, c'est normal que l'on trouve des données intéressantes dans des archives de courriers, en proportion non négligeable conservées par des serveurs. Le phénomène déjà ancien des listes de messageries (diffusion/discussion) a accentué le processus d'archivage et rationalisé ces fonds.

B. L'usenet : les forums = ce qui a fait découvrir le net au grand public. A déconseiller sauf dans des cas limites.

C. Le web : la révolution Internet. La facilité avec laquelle n'importe qui peut publier des informations sur le réseau a permis la constitution de fonds documentaire énorme

2. MAIS il y a des risques

    A. Obsolescence (tant technique qu'informationnelle), fausses nouvelles (hoaxes), effets de loupe (activisme, démagogie)

    B. La notion de "web invisible" (définition de Françoise Quaire pour l'ADBS)

Expression qui sous-entend "la part du Web invisible pour les moteurs de recherche" : l'ensemble des pages non localisables et/ou non indexables par ces outils. Le Web invisible correspond à plusieurs types de ressources :
  • · Documents dans des formats différents du html (par exemple pdf, word, etc. )
  • . Pages situées à l'intérieur d'une frame (cadre)
  • . Pages dont les caractéristiques techniques rendent difficiles, sinon impossible l'indexation par les moteurs : javascripts modifiant le contenu, technologies propriétaires (par exemple flash, active X, java)
  • · Pages qui n'ont fait l'objet ni d'un référencement direct , ni d'aucun lien d'une autre page.
  • · Pages nécessitant une identification de la part de l'internaute
  • · Pages dont le contenu indique aux moteurs qu'ils ne doivent pas l'indexer
  • · Page produite à partir de bases de données ou d'applications, et dont l'URL comporte des paramètres non exploitables par la plupart des moteurs
  • . Page produite à partir de données saisies par l'utilisateur via un formulaire html. Exemple : les résultats de l'interrogation d'une base de données avec des critères de recherche entrés par l'utilisateur.

3. Quantification des ressources

On ne sait pas à 1 milliard près combien il y a de pages web. Les chiffres sont inouïs, parfois contradictoires. De toutes façons, le web invisible fait que ce recensement est impossible (voir http://www.strategic-road.com/recherch/mesurefr.htm

 

Une fois que l'on sait ce qu'on peut y trouver (ou ne pas y trouver), on peut se lancer sur les méthodes de recherches...

Comment trouver de l'information sur Internet ?

1. Les outils de recherche

A. La division traditionnelle : moteurs et annuaires.

Un moteur est un outil indexant automatiquement le contenu (le texte intégral en général) de PAGES web. Il en conserve une trace dans ses fichiers (des index), interrogeables ensuite par des mots-clefs ou des expressions du texte (éventuellement de descripteurs suggérés par des balises invisibles, appelées meta-tags)

Un annuaire, (on devrait dire plutôt répertoire) est un outil d'analyse humain, référençant de manière succincte des SITES web (en général au sein de listes hiérarchisées de mots-clefs).

NB : il n'est pas possible de rechercher une "expression" en texte intégral dans un annuaire / un site web parlant d'un sujet précis, mais qui, par coquetterie par exemple, ne cite jamais une marque ou un nom propre, ne sera pas retrouvé par un moteur (qui, étant une machine, ne l'aura pas indexé avec ce mot-clef)

 

B. Comment fonctionne les outils de recherche ?

Les Moteurs

  1. Les moteurs disposent d'une liste d'adresses de pages web (qu'on leur soumet, ou qu'ils vont chercher dans des listes établies par des documentalistes, ou par l'open directory)

  2. Des petits programmes appelés "spiders" ou "crawlers" vont sur ces pages, en indexent (conservent en mémoire les mots et les expressions) tout ou partie, et  suivent les éventuels hyperliens internes ou externes (en général, les spiders se limitent à n'indexer que le début de la page, ne vont pas plus loin que le 3e ou 4e liens internes et ne font que conserver les hyperliens externes pour plus tard et recommencer l'opération)

  3. Les index sont ainsi constitués, et alimentent une base de données, éventuellement enrichie par des données externes (des "méta-données") insérées dans l'en-tête invisible des pages web (faire Affichage / Source de la page pour les voir).

  4. Régulièrement, en fonction des capacités de stockage du moteur, le spider repasse sur le site (une méta-donnée peut d'ailleurs le lui indiquer) et vérifie si des éléments ont changé. Mais le taux de rafraîchissement peut être très peu satisfaisant et on a alors des pages qui soit ont disparu (erreur 404), soit ne parle plus du sujet (cas de la presse)

Critères de sélection d'un bon moteur

 

Les Annuaires

 

2. Stratégies d'utilisation des outils de recherche

Typologie

Selon les différents critères de classement des moteurs généralistes, arrivent en général en tête :

Google http://www.google.com / Altavista : http://www.altavista.com / Voila : http://www.voila.fr

Sont fréquemment cités parmi les meilleurs :

Lycos : http://www.lycos.com ; Excite : http://www.excite.com ; Northernlight : http://www.northernlight.com ; Hotbot : http://www.hotbot.com ; Alltheweb : http://www.alltheweb.com 

http://www.abondance.com/outils/moteurs.html 

des listes ( http://perso.wanadoo.fr/f.bourdet/french_seach.html ) : ( http://www.touslesmoteurs.com/ )

ATTENTION 1 : tous se valent en général sur la rapidité, et pour les meilleurs, sur la taille de l'index. Le mieux à faire est de se familiariser avec deux ou trois d'entre eux

ATTENTION 2 : il s'agit des moteurs généralistes. Il existe évidemment des moteurs spécifiques à un secteur. Leur principe est le même que les moteurs généralistes, mais ils s'associent avec un répertoire spécialisé et décide d'indexer profondément les sites sélectionnés (ex : http://www.google.com/unclesam qui n'indexe que les sites en .gov)

 

Pour les annuaires, le principal d'entre eux éclipse tous les autres : Yahoo ( http://www.yahoo.com ) et ses multiples versions nationales et spécialisées est sans contestation le plus visité des répertoires. On peut lui préférer néanmoins d'autres répertoires plus spécialisés et parfois mieux construits sur des domaines particuliers :

Open directory : http://www.dmoz.org ; Nomade : http://www.nomade.fr

A noter que les répertoires de recherche offrent toujours des fonctionnalités supplémentaires (recherche automatique sur un moteur (google pour Yahoo, Voila pour QuiQuoiOù) ; recherches dans des dépêches d'agence de presse...) En fait, les meilleurs moteurs se sont assurés de leur côté une complémentarité fonctionnelle totale avec les meilleurs répertoires (dmoz pour Google et Altavista, etc...) dans lesquels ils puisent des informations supplémentaires pour trier les sites ou pour les sélectionner.

http://www.abondance.com/outils/annuaires.html 

 

Applications pratiques

Notions de base en opérateurs booléens :

confiture ET fraise trouvera "confiture de fraise", mais pas "confiture d'abricot" opérateur par défaut sur google (rare) ; en général exprimé par AND, ou par le signe + (collé au mot)
confiture OU fraise trouvera "confiture d'abricot" ou "fraise de veau" opérateur par défaut de la plupart des moteurs ; aussi exprimé par OR
confiture SAUF fraise trouvera "confiture d'abricot" mais pas "confiture de fraise" permet de restreindre des recherches (réduire le "bruit") ; exprimé par NOT ou par le signe "-"

 

Une utilisation fréquente des mêmes moteurs permet de s'habituer à la syntaxe avancée (parce qu'il existe de nombreux autres opérateurs : http://www.abondance.com/outils/comparatif.html )

Google : http://www.google.com/advanced_search?hl=fr 

Altavista : http://www.altavista.com/cgi-bin/query?pg=aq&stype=stext (en français : http://fr.altavista.com/index.jsp?qmode=adv

Yahoo : http://fr.search.yahoo.com/search/fr/options 

 

Une solution : les méta-moteurs

Principe : poser la même requête à plusieurs moteurs, analyser les résultats, dédoublonner, et servir chaud.

liste de méta-moteurs : http://www.enfin.com/catalog/metamoteur/ 

Parmi les plus efficaces : http://www.ixquick.com 

 

Certains outils permettent d'héberger chez soi son propre méta-moteur et de choisir les moteurs à interroger (cf Copernic), mais on atteint les limites de l'utilisatin simple des moteurs de recherche sur Internet

Conclusion : Vers la veille et les outils de push (agents intelligents)

 

Tendances : 

 

Web-bibliographie

ou (http://perso.wanadoo.fr/stephane.cottin/bookstef.htm)