Projet Data Science : De la Donnée à la Décision

Ce projet vous lance dans le monde de la Data Science, transformant des données brutes en informations utiles et en outils de prédiction. Vous allez choisir un sujet qui vous passionne et suivre toutes les étapes clés d’un projet de données, de l’exploration à la présentation.


Objectif

L’objectif est de réaliser une analyse de données complète sur un jeu de données de votre choix et de communiquer vos découvertes via un dashboard interactif.


Étapes du Projet

Voici les étapes que vous devrez suivre :

  1. Acquisition des Données 📥
    • Quoi ? Trouvez et collectez vos données.
    • Votre rôle : Choisissez un dataset intéressant (par exemple, sur Kaggle, UCI, ou de l’Open Data) et expliquez pourquoi vous l’avez choisi.
  2. Nettoyage et Préparation 🧼
    • Quoi ? Rendez les données propres et prêtes à l’emploi.
    • Votre rôle : Gérez les valeurs manquantes, corrigez les erreurs, standardisez les formats et transformez les données si nécessaire. Expliquez chaque étape dans votre notebook.
  3. Analyse Exploratoire 🔍 (EDA)
    • Quoi ? Commencez à comprendre ce que les données racontent.
    • Votre rôle : Calculez des statistiques de base, explorez les relations entre les variables et identifiez les premières tendances ou anomalies.
  4. Visualisation des Données 📈
    • Quoi ? Représentez vos découvertes avec des graphiques.
    • Votre rôle : Créez des visualisations claires et bien légendées pour illustrer vos insights.
  5. Modélisation 🤖 (Machine Learning) – Recommandé si pertinent
    • Quoi ? Construisez un modèle pour prédire ou classifier.
    • Votre rôle : Si votre dataset s’y prête, choisissez et entraînez un algorithme de Machine Learning (régression, classification, etc.).
  6. Évaluation du Modèle ✅ – Si Modélisation effectuée
    • Quoi ? Vérifiez la performance de votre modèle.
    • Votre rôle : Utilisez des métriques adaptées et des techniques de validation (comme la validation croisée) pour vous assurer de la robustesse de votre modèle.
  7. Déploiement et Communication 🚀
    • Quoi ? Partagez vos résultats de manière interactive.
    • Votre rôle : Créez un dashboard interactif (avec Dash, Streamlit ou Plotly) pour expliquer et communiquer vos découvertes clés. Il doit être facile à comprendre et permettre une exploration.

Livrables

Votre projet sera rendu via un dépôt GitHub unique par groupe, contenant :

  1. README.md :
    • Noms des membres du groupe.
    • Description du projet et du dataset.
    • Instructions claires pour lancer votre dashboard.
    • GIFs animés montrant votre dashboard en action.
    • Vos conclusions principales.
    • Sources et Références (Outils utilisé y compris LLM, Dataset, et méthode (code))
  2. notebook.ipynb : Votre notebook Jupyter documentant toutes les étapes (1 à 6), propre et bien commenté.
  3. dashboard_app.py : Le code Python de votre dashboard interactif (étape 7).
  4. data/ : Le dossier contenant votre dataset (ou instructions de téléchargement si trop gros).
  5. requirements.txt : La liste de toutes les bibliothèques Python utilisées.

Évaluation

Nous évaluerons la qualité de votre analyse, la clarté de vos visualisations, l’efficacité de votre code et la pertinence de vos conclusions ainsi que la facilité d’utilisation de votre dashboard.