Le Langage des Données : Formats, Acquisition et Premier Aperçu

Avant de construire des modèles prédictifs ou de révéler des secrets cachés, un data scientist doit d’abord comprendre ses “ingrédients” : les données elles-mêmes. Cette étape fondamentale consiste à identifier leur nature, à les importer proprement et à y jeter un premier coup d’œil.


Les 3 Grands Types de Données à Connaître

En science des données, toutes les données ne se valent pas. Comprendre leur type est essentiel, car cela dicte les opérations que l’on peut effectuer et les graphiques que l’on peut utiliser.

1. Données Numériques (Quantitatives) 🔢

Ce sont des chiffres mesurables. On peut les additionner, les comparer, en calculer la moyenne, etc.

  • Discrètes : Des valeurs entières, qui avancent par “sauts”.

    • En clair : On peut les compter, mais il n’y a rien entre deux valeurs.
    • Exemples : Le nombre d’enfants dans une famille (on ne peut pas avoir 2.5 enfants), le nombre de likes sur une publication.
  • Continues : Des valeurs qui peuvent prendre n’importe quel nombre dans une plage, y compris les décimales.

    • En clair : Imaginez une règle, la mesure peut être infiniment précise.
    • Exemples : La température, le poids d’une personne, la vitesse d’une voiture.

2. Données Catégorielles (Qualitatives) 🅰️🅱️

Ce sont des étiquettes ou des catégories. Elles servent à décrire et à grouper les données.

  • En clair : Elles répondent à la question “Quel type ?” ou “Quelle catégorie ?”.
  • Exemples : La couleur d’une voiture (“Rouge”, “Bleu”, “Noir”), le genre (“Homme”, “Femme”), la nationalité.

Point crucial : Les opérations mathématiques n’ont aucun sens ici. On ne peut pas calculer la “moyenne” des couleurs ! Même si on les code avec des chiffres (ex: Rouge=1, Bleu=2), cela reste des étiquettes.

3. Données Ordinales 🥇🥈🥉

Un mélange des deux ! Ce sont des catégories qui ont un ordre logique, mais l’écart entre elles n’est pas forcément uniforme.

  • En clair : On peut les classer, mais on ne peut pas dire que la “distance” entre deux rangs est toujours la même.
  • Exemples :
    • Les notes d’un sondage : “Mauvais” < "Neutre" < "Bon" < "Excellent".
    • Les étoiles d’un hôtel : ⭐⭐ est mieux que ⭐, mais l’amélioration n’est pas quantifiable mathématiquement.

Acquérir les Données avec Pandas 🐼

La première étape pratique est toujours de charger les données dans notre environnement de travail. L’outil roi pour cette tâche en Python est la bibliothèque Pandas.

  • Le DataFrame : Votre Table de Travail Numérique Pandas organise les données dans une structure appelée DataFrame. Pensez-y comme un tableau ou une feuille de calcul (type Excel), mais beaucoup plus puissant.

    • Les colonnes représentent les caractéristiques (ou variables).
    • Les lignes représentent les observations (ou enregistrements).
  • Importer un Fichier (l’exemple du CSV) Une des tâches les plus courantes est de lire un fichier CSV. Avec Pandas, c’est d’une simplicité enfantine :

      import pandas as pd
    
      # Lire les données d'un fichier CSV et les charger dans un DataFrame
      mon_dataframe = pd.read_csv("chemin/vers/mon_fichier.csv")

Le Premier Contact : Un Coup d’Œil aux Données 👀

Une fois les données chargées, le premier réflexe est de vérifier que tout s’est bien passé.

  • La commande .head() Cette fonction ultra-simple de Pandas affiche les premières lignes de votre DataFrame (5 par défaut). C’est le moyen le plus rapide de “sentir” vos données.

      # Afficher les 5 premières lignes du DataFrame
      print(mon_dataframe.head())
  • Pourquoi est-ce si important ? En une seule commande, vous pouvez vérifier :

    1. Que le fichier a été lu correctement.
    2. Les noms des colonnes.
    3. Le type de valeurs présentes dans chaque colonne.

C’est le point de départ de toute analyse, avant même de penser au nettoyage ou à la modélisation.


En Résumé : Votre Routine de Démarrage

  1. Identifier le type de données que vous manipulez (Numérique, Catégoriel, Ordinal).
  2. Charger les données dans un DataFrame Pandas avec pd.read_csv() (ou une autre fonction selon le format).
  3. Vérifier l’importation et avoir un premier aperçu avec .head().