• La Wayback Machine, développée avec Alexa Internet, sert de capsule temporelle numérique en créant un index tridimensionnel qui archive et permet aux utilisateurs de parcourir des pages web issues de plusieurs périodes.
  • Internet Archive se concentre sur les pages web accessibles au public, excluant celles protégées par des mots de passe ou accessibles via des formulaires, et en respectant les robots.
  • Internet Archive numérise également des livres, offrant un accès gratuit à une vaste collection d'œuvres littéraires et d'autres matériels, poursuivant ainsi sa mission d'accès universel à l'information.

La Wayback Machine, développée par Internet Archive et Alexa Internet, préserve le web en utilisant des robots d'indexation pour capturer et stocker des instantanés de pages web accessibles au public. Elle ne peut pas capturer chaque page, mais son vaste répertoire de plus de 330 milliards de pages web et des millions d'autres éléments numériques fournit d'importants ressources pour la recherche et la préservation, soutenu par des centres mondiaux de numérisation de livres.

Une capsule temporelle pour le web

La Wayback Machine, développée en collaboration avec Alexa Internet, est une fonctionnalité centrale de l'Internet Archive. Elle fonctionne en créant un index tridimensionnel qui permet aux utilisateurs de parcourir des documents web sur plusieurs périodes. Cette capacité unique transforme la Wayback Machine en une capsule temporelle numérique, capturant et préservant l'état des pages web au fil du temps. Lorsqu'un utilisateur accède à la Wayback Machine, il peut saisir uneURLet visualiser des versions archivées de cette page, montrant son apparence à différents moments de l'histoire.

Le processus commence par desrobots d'indexationqui parcourent Internet, en prenant des instantanés des pages web accessibles au public.

Lire aussi:Ce data scientist souhaite construire une archive sur l'histoire de la mesure d'Internet

Lire aussi:Quelles ressources Internet a-t-il rendues disponibles?

Portée et limites de l'archivage du web

Internet Archive ne capture pas tous les sites web; son attention se porte sur les pages accessibles au public. Les pages nécessitant des mots de passe, accessibles uniquement par le biais de formulaires, ou résidant sur des serveurs sécurisés ne sont généralement pas incluses dans l'archive. De plus, certaines pages sont exclues en raison de fichiers robots.txt, qui indiquent aux robots d'indexation de ne pas les archiver, et certains sites sont exclus à la demande de leurs propriétaires.

Malgré ces limitations, Internet Archive s'efforce de collecter autant de contenu web public que possible grâce à ses robots d'indexation automatisés. Ces robots collectent en continu des données, créant un vaste répertoire d'instantanés de pages web. La mission d'Internet Archive est de fournir un accès universel à toutes les connaissances, ce qui guide ses efforts considérables pour documenter et préserver le monde numérique.

Au-delà des pages web – numérisation de livres et plus encore

En plus de ses efforts d'archivage du web, Internet Archive est fortement impliquée dans des projets de numérisation de livres. Elle gère l'un des plus grands efforts de numérisation de livres au monde, visant à préserver et à donner accès à de grandes quantités de documents imprimés. Ces projets impliquent la numérisation de livres provenant de bibliothèques et d'autres sources, les convertissant en formats numériques accessibles à tous en ligne.

Les livres numérisés sont mis à disposition via la plateforme d'Internet Archive, où les utilisateurs peuvent les lire et les télécharger gratuitement. Cette initiative non seulement préserve les œuvres littéraires, mais démocratise également l'accès au savoir, en phase avec la mission de l'Archive de fournir un accès universel à toutes les informations.