• L'exploration de données est un sous-domaine de l'informatique qui mêle de nombreuses techniques issues des statistiques, de la science des données, de la théorie des bases de données et de l'apprentissage automatique.
  • Les applications de l'exploration de données incluent le profilage et la segmentation des clients, l'analyse du panier de la ménagère et la détection d'anomalies.

L'exploration de données n'a pas un inventeur unique. Elle a plutôt évolué au fil du temps grâce aux contributions de divers chercheurs et praticiens de différents domaines. Le développement de l'exploration de données combine des avancées en statistiques, apprentissage automatique, intelligence artificielle et informatique. Dans ce blog, vous découvrirez quelques figures clés et étapes importantes de l'histoire de l'exploration de données.

Les origines de l'exploration de données

John Tukey (1915-2000): Statisticien américain, les contributions de Tukey à l'analyse exploratoire des données (EDA) ont été révolutionnaires. Son développement de méthodes pour résumer et visualiser les données a fourni une base cruciale pour les techniques ultérieures d'exploration de données. Les travaux de Tukey ont souligné l'importance de regarder au-delà des données brutes pour comprendre leur structure et leurs motifs sous-jacents.

Contributions précoces aux techniques statistiques

À mesure que l'exploration de données évoluait, elle s'appuyait fortement sur les méthodes statistiques pour analyser et interpréter les données. Jerome Friedman, Robert Tibshirani et Trevor Hastie: Ce trio de statisticiens a considérablement fait progresser le domaine grâce à leurs travaux sur les techniques de classification et de régression. Leur développement d'algorithmes tels que les arbres de classification et les méthodes d'ensemble, y compris le boosting, est devenu des composants fondamentaux de l'exploration de données moderne. Leurs contributions ont fourni les fondements théoriques de nombreuses techniques utilisées pour extraire des informations des données.

À lire aussi: 5 risques essentiels de l'exploration de données à connaître

À lire aussi: Comprendre l'exploration de données et son importance en entreprise

L'avènement de l'apprentissage automatique

Arthur Samuel (1901-1990): Souvent crédité de l'invention du terme « apprentissage automatique », les travaux de Samuel dans les années 1950 sur les algorithmes qui s'améliorent par l'expérience ont jeté les bases de nombreuses méthodes d'exploration de données. Ses recherches sur la création de programmes capables d'apprendre à partir des données ont joué un rôle déterminant dans la formation des algorithmes utilisés aujourd'hui dans l'exploration de données.

Systèmes de bases de données et règles d'association

Les années 1990 ont vu des avancées significatives dans les systèmes de bases de données et les algorithmes, ce qui a grandement influencé les pratiques d'exploration de données. Rakesh Agrawal, Tomasz Imielinski et Arun Swami: Ces chercheurs ont développé l'algorithme Apriori, une méthode pionnière pour l'extraction de règles d'association dans de grandes bases de données. Leurs travaux ont permis aux entreprises et aux chercheurs de découvrir des relations entre variables dans les ensembles de données, comme trouver quels produits sont souvent achetés ensemble.

Ce développement est devenu une pierre angulaire de l'exploration de données, en particulier dans l'analyse du panier de la ménagère.

L'exploration de données moderne: formaliser le domaine

Alors que l'exploration de données continuait d'évoluer, des efforts ont été faits pour formaliser et standardiser les techniques et méthodologies utilisées. Jiawei Han et Micheline Kamber: Leur manuel influent, « Data Mining: Concepts and Techniques », est devenu un incontournable du domaine. Les travaux de Han et Kamber ont aidé à synthétiser et articuler les méthodes et applications de l'exploration de données, les rendant accessibles aux étudiants comme aux professionnels. Leurs contributions ont fourni un aperçu complet des techniques d'exploration de données et des meilleures pratiques.