Dossier historique

This data scientist wants to build an archive about the history of internet measurement

Ce data scientist veut créer une archive de l'histoire de la mesure d'Internet

Jim Cowie, co-fondateur et Chief Data Scientist chez DeepMacro, a récemment publié un article intitulé Thinking about Internet history sur le site de l'APNIC. Il a plus de 25 ans d'expérience en tant que conteur de données dans le domaine de la mesure d'Internet et a récemment lancé l'Internet History Initiative, avec l'idée de construire une bibliothèque Internet pour les futurs historiens, en rassemblant l'histoire enregistrée d'Internet.

Histoire d'InternetOrigine: Entreprises institutionnels Asie-PacifiquePublié 3 février 2024
Visuel du dossier d'archive This data scientist wants to build an archive about the history of internet measurement
  • Jim Cowie, co-fondateur et Chief Data Scientist chez DeepMacro, invite à la création d'une bibliothèque en ligne sur la mesure d'Internet.
  • Il estime qu'il y a trois étapes pour perfectionner une tâche : sauvegarder, raconter et explorer.

Jim Cowie, co-fondateur et Chief Data Scientist chez DeepMacro, a récemment publié un article intitulé Thinking about Internet history sur le site de l'APNIC. Il a plus de 25 ans d'expérience en tant que conteur de données dans le domaine de la mesure d'Internet et a récemment lancé l'Internet History Initiative, avec l'idée de construire une bibliothèque Internet pour les futurs historiens, en rassemblant l'histoire enregistrée d'Internet.

À lire également : Qu'est-ce que l'APNIC ? Au cœur de l'épine dorsale de l'internet en Asie

Organiser l'histoire pour l'interpréter et la rendre accessible et significative pour les futurs chercheurs.

Jim Cowie, co-fondateur et Chief Data Scientist chez DeepMacro

Cowie soutient que si nous voulons garantir que l'histoire d'Internet soit préservée de manière quantifiable pour les générations futures de chercheurs, et que les données soient rassemblées pour les protéger de dommages irréversibles, nous avons essentiellement trois tâches collectives à accomplir avant que nous n'oubliions tous comment cela fonctionne :

  • Préserver l'histoire en collectant des enregistrements irremplaçables de l'évolution d'Internet.
  • Collationner l'histoire pour l'expliquer et la rendre accessible et significative aux futurs chercheurs.
  • Explorer l'histoire et créer des outils et des visualisations que tout le monde peut apprécier et célébrer.

Étape 1 : Sauvegarder

Alors, que devrions-nous conserver ?

En plus des mesures actives, nous devons conserver un enregistrement des données de registre – à qui ces ressources réseau ont été attribuées chaque jour de l'histoire, par l'ARIN, le RIPE NCC et l'APNIC – et toute information que nous pouvons trouver sur le nom DNS associé à chaque adresse IP un jour donné. Ce sont des indices collectifs sur ce que font tous ces hôtes Internet, et ils fournissent également des indices sur leur possible localisation sur Terre.

Refactoriser l'Internet en une base de données instantanée

Enfin, toutes ces données DNS et de registre sont très éphémères, ce qui signifie qu'elles peuvent changer quotidiennement sans avertissement. Si nous voulons plus tard construire des indicateurs crédibles, tels que la densité des hôtes Internet dans une zone donnée, nous devons alors suivre le moment de chaque brève observation. Rappelons que dans les années 2010, l'épuisement du pool IPv4 disponible a déclenché une vague de ventes et de réallocations internationales de blocs d'adresses réseau, de sorte que (par exemple) un bloc d'adresses réseau qui hébergeait autrefois des clients DSL en Roumanie pourrait disparaître d'Internet pendant un certain temps, pour réapparaître dans un centre de données en Arabie saoudite pour desservir des pages Web. La géographie d'Internet change rapidement, nous avons donc besoin non seulement d'une carte géographique de toutes les adresses IP et de l'objectif de chaque adresse IP. Nous devons également savoir à quoi cette carte a ressemblé quotidiennement au cours des dernières décennies, à mesure que les hôtes et les ressources associés à chaque adresse IP se sont déplacés et ont changé de fonctionnalité.

Enfin, toutes ces données DNS et de registre sont très éphémères, ce qui signifie qu'elles peuvent changer quotidiennement sans avertissement. Si nous voulons plus tard construire des indicateurs crédibles, tels que la densité des hôtes Internet dans une zone donnée, nous devons alors suivre le moment de chaque brève observation.

Rappelons que dans les années 2010, l'épuisement du pool IPv4 disponible a déclenché une vague de ventes et de réallocations internationales de blocs d'adresses réseau, de sorte que (par exemple) un bloc d'adresses réseau qui hébergeait autrefois des clients DSL en Roumanie pourrait disparaître d'Internet pendant un certain temps, pour réapparaître dans un centre de données en Arabie saoudite pour desservir des pages Web. La géographie d'Internet change rapidement, nous avons donc besoin non seulement d'une carte géographique de toutes les adresses IP et de l'objectif de chaque adresse IP. Nous devons également savoir à quoi cette carte a ressemblé quotidiennement au cours des dernières décennies, à mesure que les hôtes et les ressources associés à chaque adresse IP se sont déplacés et ont changé de fonctionnalité.

Étape 2 : Raconter

Une fois que nous aurons préservé avec succès tous nos ensembles de données numériques menacés, nous pourrons commencer à les gérer et à en parler. La plupart des recherches sur la mesure d'Internet se sont concentrées sur les problèmes opérationnels ici et maintenant – surveiller les ralentissements et les pannes au sein et entre les fournisseurs, et comprendre comment Internet contourne le trafic routé corrompu. La question de l'évolution historique est souvent secondaire. Nous pouvons trouver de nouvelles façons de regarder Internet à travers le prisme de l'histoire pour sortir de ce « piège opérationnel ».

Une partie de la raison pour laquelle nous faisons cela est d'encourager les parties d'Internet à croissance plus lente et moins diversifiées à se développer plus rapidement, et il est vrai que l'environnement réglementaire national (et le rôle central des fournisseurs d'État dans de nombreuses économies) peut amener certaines parties d'Internet à se comporter de manière spécifique à l'économie. Mais Jim Cowie espère que, pour le bien des futurs historiens, nous pourrons trouver de meilleurs moyens de maintenir l'intuition géographique, plutôt que de tomber dans une sorte de piège cognitif qui considère une empreinte Internet nationale comme une simple frontière souveraine à défendre.

Certains de ces « fragments de charge de travail » sont très spécifiques dans le temps et dans l'espace pour ceux qui veulent comprendre les connexions Internet qui sont cohérentes avec les événements historiques. Par exemple, qu'est-ce que cela faisait pour les utilisateurs universitaires en Chine d'utiliser la recherche Google en 2009 ? Qu'est-ce que cela faisait pour un utilisateur mobile au Caire de vouloir accéder à Wikipedia en 2011 ? À quoi ressemblait le secteur financier en Amérique du Sud en lien avec Bloomberg et Reuters dans les années 2000 ? Quelle sera la diversité du nœud Ethereum en 2020 ou du serveur Mastodon en 2023 en termes d'hébergement par rapport aux consommateurs Internet du monde entier ? Certaines de ces parties sont très pertinentes – nous pourrions être en mesure de cartographier les intégrations des hôtes dans l'Internet et de visualiser les connexions entre les fournisseurs qui soutiennent une partie donnée de la charge de travail.

Étape 3 : Explorer

La raison pour laquelle nous nous efforçons de préserver et d'organiser l'histoire d'Internet en tant que produit technologique est d'aider le public à comprendre comment Internet opère sa magie. L'Internet d'aujourd'hui fonctionne incroyablement bien, en grande partie grâce aux conditions spécifiques dans lesquelles il s'est développé, sous une gouvernance multipartite plutôt que sous un système de traité multilatéral qui valorise souvent l'ouverture décentralisée et l'innovation, tandis que les autorités centralisées peuvent être plus enclines à privilégier la sécurité, la prévisibilité et le contrôle.
Une fois que nous aurons sauvegardé l'histoire d'Internet et recruté des scientifiques réfléchis qui peuvent nous aider à quantifier certains des avantages sociaux (coûts sociaux nets) d'Internet, nous aurons besoin d'outils pour aider à raconter ces histoires. Principalement des visualisations, peut-être des visites immersives, et certainement le genre d'expositions interactives que les journalistes de données utilisent pour informer et divertir. « Notre investissement dans la fourniture de ces ensembles de données ouvrira la porte à des collaborations plus larges avec des artistes, des journalistes et des conteurs visuels. »

C'est ce que Jim Cowie veut lancer. Nous pouvons prédire avec confiance que, tout comme Internet a changé la société, la société continuera certainement à changer Internet par une combinaison concurrente de réglementation descendante avec l'innovation ascendante et la demande populaire.

Pour ceux qui se soucient de l'avenir d'Internet, la course est désormais lancée pour devenir de meilleurs bibliothécaires de l'histoire d'Internet afin que nous puissions préserver et raconter les grandes choses d'Internet.