历史档案
This data scientist wants to build an archive about the history of internet measurement
这位数据科学家想要构建互联网测量历史档案
DeepMacro 联合创始人兼首席数据科学家 Jim Cowie 最近在 APNIC 网站上发布了一篇题为《思考互联网历史》的文章。他拥有超过 25 年的互联网测量数据叙事经验,最近发起了互联网历史倡议,旨在为未来的历史学家构建一个互联网图书馆,拼凑出互联网的记录历史。

- DeepMacro 联合创始人兼首席数据科学家 Jim Cowie 邀请创建关于互联网测量的在线图书馆。
- 他认为完善任务有三个步骤:保存、叙事和探索。
Jim Cowie,DeepMacro 联合创始人兼首席数据科学家,最近在 APNIC 网站上发布了一篇题为 《思考互联网历史》 的文章。他在互联网测量领域拥有超过 25 年的数据叙事经验,最近发起了互联网历史倡议,旨在为未来的历史学家构建一个互联网图书馆,拼凑出互联网的记录历史。
整理历史以诠释它,使其对未来学者可访问且有意义。
Jim Cowie,DeepMacro 联合创始人兼首席数据科学家
Cowie 认为,如果我们想要确保互联网的故事以可量化的方式为未来几代学者保存,并且将数据汇集起来以保护其免受不可逆转的损害,那么在我们都忘记其工作原理之前,基本上有三个集体任务需要完成:
- 通过收集互联网如何演变的不可替代记录来保存历史。
- 整理历史以解释它,使其对未来学者可访问且有意义。
- 探索历史并创建每个人都能享受和庆祝的工具和可视化。
第一步:保存
那么我们应该保留什么?
除了主动测量之外,我们还需要保留注册数据记录——历史上每天这些网络资源分配给了谁,来自 ARIN、RIPE NCC 和 APNIC——以及我们能找到的关于每天与每个 IP 地址相关联的 DNS 名称的任何信息。这些是所有互联网主机正在做什么的共同线索,也提供了它们可能位于地球上的线索。
将互联网重构为时间点数据库
最后,所有这些 DNS 和注册数据都是非常短暂的,这意味着它可能每天都会毫无预警地变化。如果我们以后想要建立可信的指标,例如某个地区互联网主机的密度,那么我们必须跟踪每次短暂观察的时间。回想一下,在 2010 年代,可用 IPv4 地址池的耗尽引发了一波销售和国际网络地址块重新分配的浪潮,因此(例如)曾经在罗马尼亚托管 DSL 客户的网络地址块可能会从互联网上消失一段时间,然后重新出现在沙特阿拉伯的数据中心用于服务网页。互联网的地理位置变化迅速,因此我们不仅需要所有 IP 地址的地理地图和每个 IP 地址的用途,还需要知道在过去的几十年中,随着每个 IP 地址关联的主机和资源的移动和功能变化,这张地图每天是什么样子。
最后,所有这些 DNS 和注册数据都是非常短暂的,这意味着它可能每天都会毫无预警地变化。如果我们以后想要建立可信的指标,例如某个地区互联网主机的密度,那么我们必须跟踪每次短暂观察的时间。
回想一下,在 2010 年代,可用 IPv4 地址池的耗尽引发了一波销售和国际网络地址块重新分配的浪潮,因此(例如)曾经在罗马尼亚托管 DSL 客户的网络地址块可能会从互联网上消失一段时间,然后重新出现在沙特阿拉伯的数据中心用于服务网页。互联网的地理位置变化迅速,因此我们不仅需要所有 IP 地址的地理地图和每个 IP 地址的用途,还需要知道在过去的几十年中,随着每个 IP 地址关联的主机和资源的移动和功能变化,这张地图每天是什么样子。
第二步:叙事
一旦我们成功保存了所有濒危的数字数据集,我们就可以开始管理和讲述它们。大多数互联网测量研究都集中在当下的操作问题上——监测提供商内部和之间的减速和中断,并弄清楚互联网如何绕过损坏的路由流量。历史演变的问题往往是次要的。我们可以找到新的方法通过历史的镜头来看待互联网,以摆脱这种“操作陷阱”。
我们这样做的部分原因是为了鼓励增长较慢、多样性较低的互联网部分更快地增长,而且确实,国家监管环境(以及许多经济体中国有提供商的中心作用)可能促使互联网的某些部分以特定经济体特有的方式运行。但 Jim Cowie 希望为了未来的历史学家,我们能找到更好的方法来保持地理直觉,而不是陷入某种认知陷阱,将国家互联网足迹仅视为需要防卫的另一个主权边界。
对于那些想了解与历史事件一致的互联网连接的人来说,其中一些“工作负载片段”在时间和地点上非常具体。例如,2009 年中国学术用户使用谷歌搜索是什么感觉?2011 年开罗的移动用户想要访问维基百科是什么感觉?2000 年代南美洲金融部门与彭博和路透的连接情况如何?2020 年以太坊节点或 2023 年 Mastodon 服务器在托管方面相对于全球互联网消费者的多样性如何?其中一些部分非常重要——我们可能能够映射互联网主机的嵌入,并可视化支持特定工作负载部分的提供商之间的连接。
第三步:探索
我们努力保存和组织作为技术产品的互联网历史,是为了帮助公众理解互联网是如何施展其魔力的。今天的互联网运行得非常好,很大程度上是因为它在多方利益相关者治理下成长和发展的特定条件,而不是在通常重视去中心化开放和创新的多边条约体系下,而中央权力机构可能更倾向于优先考虑安全性、可预测性和控制。一旦我们保存了互联网历史,并招募了有思想的科学家帮助我们量化互联网的一些社会效益(社会净成本),我们就需要工具来讲述这些故事。主要是可视化,也许是沉浸式漫游,当然还有数据记者用来告知和娱乐的那种互动展览。“我们在提供这些数据集方面的投资将为与艺术家、记者和视觉叙事者进行更大规模的合作打开大门。”
这就是 Jim Cowie 想要开始的。我们可以自信地预测,正如互联网改变了社会一样,社会肯定将继续通过自上而下的监管与自下而上的创新和民众需求的竞争性结合来改变互联网。
对于那些关心互联网未来的人来说,现在开始成为更好的互联网历史图书馆员,以便我们能够保存和讲述互联网的伟大之处。
