• Wayback Machine 由 Internet Archive 与 Alexa Internet 合作开发,它通过创建三维索引,存档并允许用户浏览来自多个时间段的网页,就像一个数字时光胶囊。
  • Internet Archive 专注于公开可访问的网页,排除那些需要密码、通过表单提交才能访问的页面,并遵守 robots.txt 协议。
  • Internet Archive 还进行书籍数字化,提供大量文学作品及其他资料的免费获取,进一步推动其信息普遍获取的使命。

Wayback Machine 由 Internet Archive 和 Alexa Internet 开发,它通过网络爬虫抓取并存储公开可访问网页的快照来保存网络。虽然无法捕获每一个页面,但其拥有超过 3300 亿个网页和数百万其他数字项目的庞大存储库,为研究和保存提供了丰富的资源,并得到全球图书扫描中心的支持。

网络时光胶囊

Wayback Machine 是 Internet Archive 的核心功能,它通过与 Alexa Internet 合作开发而成。它通过创建三维索引,允许用户浏览跨越多个时间段的网页文档。这一独特功能将 Wayback Machine 变成了一个数字时光胶囊,捕获并保存网页随时间变化的状态。用户访问 Wayback Machine 时,可以输入一个URL并查看该网页的存档版本,了解它在历史不同时期的样子。

这一过程始于网络爬虫,它们遍历互联网,拍摄可公开访问网页的快照。

推荐阅读:这位数据科学家想要建立一个关于互联网测量历史的档案

推荐阅读:互联网提供了哪些资源?

网页存档的范围与局限

Internet Archive 并不捕获网络上的所有网站,它专注于公开可访问的页面。需要密码、仅通过表单提交才能访问或位于安全服务器上的页面通常不会被收录进存档。此外,某些页面因 robots.txt 文件指示网络爬虫不要存档而被排除,还有一些网站应其所有者要求而被排除。

尽管存在这些限制,Internet Archive 仍通过其自动化网络爬虫,尽力收集尽可能多的公开网络内容。这些爬虫不断收集数据,形成庞大的网页快照存储库。Internet Archive 的使命是提供对所有知识的普遍获取,这指导着其记录和保存数字世界的不懈努力。

超越网页——数字化图书及其他

除了网页存档,Internet Archive 还深度参与图书数字化项目。它管理着全球最大的图书数字化工作之一,旨在保存并提供对大量印刷资料的使用途径。这些项目通过扫描图书馆和其他来源的书籍,将它们转换成数字格式,供任何人在线使用。

数字化后的图书通过 Internet Archive 平台提供,用户可以免费阅读和下载。这一举措不仅保存了文学作品,还使知识获取民主化,符合该档案馆提供对所有信息普遍获取的使命。