Accessibilité de l'information

Petit aperçu de la couverture estimée du Web par les moteurs de recherche, et de la politique d’indexation des moteurs de recherche. Plusieurs sites anciens donnaient déjà des chiffres sur l'étendue du Web et la difficulté de retrouver l'information alors même qu'il n'avait pas 10 ans...

Aujour'hui, le modèle de communication des sociétés d'ancien régime, comprenez le monde d'avant Google, a totalement implosé : les potins des plébéiens se mêlent aux idées des patriciens sur la toile dans un écheveau inextricable où la hiérarchie de la communication du savoir s'est effondrée. En résulte une immense quantité d'information déversée sur le Web, une volatilité et une instantanéité démesurées, et une validité finalement peu controversée.

Mais une information pertinente non factuelle pourrait être ignorée par les outils de recherche car il est des domaines où la pertinence échappe aux algorithmes, comme le rappelle l'article de Pierre LAZULY (cf ci-dessous).

Alors, à quelle information accédons-nous dans la nouvelle "société de la requête" où la simplicité linéaire de Google a fait la différence face à toutes les autres alternatives ? Paradoxalement, la quantité d'information électronique devrait réduire son accessibilité mais la firme de Mountain View a réussi à produire la sensation inverse : l'infobésité peut croître, le moteur saura trier l'information pertinente. Ainsi, on a pu entendre dire, de manière ingénue que "Google était bien mieux et plus facile à utiliser que l’internet"...

Les moteurs peinent à indexer le Web

Un document de deux chercheurs du NEC Research Institute à Princeton, en juillet 1999, venait casser l’idée pour la première fois que les outils de recherche ne couvraient pas plus de 16% du Web... Pour le côté historique des choses.

Information accessibility
Steve Lawrence and C. Lee Giles, NEC Research Institute 1999
[PDF 61 Ko - Mis en ligne le 25 août 2001 - Revu le 22 juillet 2012]

Les pricipaux problèmes de la recherche d’information sur Internet

Voici un texte publié originellement par le service DIST du CEA sur les principaux problèmes de la recherche d’information sur internet. Ce document n’est plus actuellement diponible sur le site en raison de son ancienneté. Il constitue néanmoins une excellente introduction au sujet. L'auteur présente les différentes étapes de la "chaîne documentaire" du Web : la collecte et l'indexation des pages par les moteurs, les techniques de recherche et la préseantation des résultats.

Les principaux problèmes de la recherche d'information sur Internet
CEA DIST 1999
[PDF 500 Ko - Mis en ligne le 31 octobre 2003 - Revu le 22 juillet 2012]

Le monde selon Google

L'internet, avec ses milliards de pages, est souvent décrit comme la plus complète des encyclopédies : une incomparable documentation mise gracieusement à notre disposition, et des outils qui savent répondre dans la seconde à la moindre de nos interrogations... Mais voici par Pierre LAZULY, l’envers du décor du monde selon Google. LE MONDE diplomatique p. 28 - 29, octobre 2003.

Le monde selon Google
Pierre LAZULY
[PDF 33 Ko - Mis en ligne le 31 octobre 2003 - Revu le 22 juillet 2012]

 

La forêt de l’information
Voici l'un des premiers articles sur la difficulté de trouver l’information électronique à l’aube de la révolution des TIC.
http://www.fao.org/docrep/003/x8820f/x8820f04.htm
[Site nº 356 - Mis en ligne le 15 mars 2002]

Le volume de l’information
Le volume de l’information électronique est un thème récurrent et dont les chiffres vertigineux sont toujours sujets à caution. Néanmoins, voici une étude de 2003 sur l’information électronique que les recherchistes ne sauraient ignorer.
http://www2.sims.berkeley.edu/research/projects/how-much-info-2003/inter...
[Site nº 664 - Mis en ligne le 23 août 2004]

La taille du web visible
Deux chercheurs des universités de Pise et de l’Iowa, donnaient une taille approximative de 11,5 milliards de pages pour le Web "indexable" (ou "visible") en janvier 2005.
http://www.cs.uiowa.edu/~asignori/web-size/
[Site nº 792 - Mis en ligne le 19 juillet 2005]

Statistiques :

Identification :

Utilisateurs :

Il y a actuellement 1 utilisateur connecté.

Droits d'auteur :

Ce site est mis à disposition
sous un contrat Creative Commons :
http://creativecommons.org