IA - Penninghen

Datasets
DatasetsNotebooksKaggleModèlesglossaireliens utiles
Cours
edit

IA - Penninghen

Documentation — Notebooks

Objectif : Analyser, entraîner un dataset

1- Définition

Un notebook est un document en ligne qui combine du code exécutable (Python, R), du texte explicatif (Markdown), des visualisations et des résultats, dans un même fichier interactif.

2- Principe

Associer un notebook à un dataset

3- Objectifs

  • - analyser et explorer des datasets
  • - entraîner des modèles de machine learning / deep learning
  • - visualiser des données (matplotlib, seaborn, plotly, etc.)
  • - présenter un projet ou une recherche reproductible.

4- Structure d'un notebook

  • - Introduction & Objectif (texte Markdown)
  • - Importation des bibliothèques
  • - Chargement des données
  • - Exploration des données (EDA)
  • - Préparation / Nettoyage
  • - Modélisation & Entraînement
  • - Évaluation du modèle
  • - Visualisations
  • - Conclusions ou pistes futures

5- Outils

  • Kaggle Notebooks

6- Méthodes

Un notebook est un document contenant en parti du code informatique.

Dans un premier temps, vous demanderez à chatGPT ou autres de produire ce code.

  • 1- Créer un dataset sur kaggle.
    Si votre dataset est un fichier excel, l'exporter en csv (fichier > exporter > format csv) et transmet à kaggle le csv.
  • 2- Créer un notebook sur kaggle.
  • 3- Associer votre dataset au notebook ("add input", sur la partie droite de l'écran).
    Utile : Vous pouvez trouver le chemin de votre dataset en cliquant sur le bouton "copy file path" à droite du fichier dans "input".
    Cela vous permettra de communiquer le bon chemin lors de l'écriture de votre prompt (ci-dessous 4-)
  • 4- Demandez à chatGPT ou autres de produire ce code.
    Joindre un extrait de votre fichier csv afin qu'il comprenne la structure (ligne avec libellé de vos colonnes + 10 lignes de contenu suffises).

    exemple de prompt :

    ci-joint un échantillon de mon dataset
    dans kaggle, mon dataset est associé comme input, voici son chemin : /kaggle/input/....
    Je souhaiterai créer un notebook kaggle afin de prédire si un objet appartient à la catégorie “Painting” ou “Print” en se basant uniquement sur le champ “medium”. Créer une nouvelle colonne "TYPE".


  • 5- Remplacer le code par défaut fourni par le code proposé par chatGTP (copier-coller)
  • 6- Cliquer sur "Run all" pour voir le résultat.
    Ce résultat s'affichera à la fin de votre code ou si vous lui demandez un fichier, dans le dossier "output" dans la partie droite de l'écran

7- Bonnes pratiques

  • - Lorsque chatGPT vous propose de remplacer une partie du code, demandez-lui de vous fournir le code complet
  • - Si vous avez des messages d'erreur dans votre notebook, communiquer-les à chatGPT
  • - Utiliser avec votre notebook un échantillon de votre dataset si celui-ci contient plus de 5000 entrées - vous pouvez charger sur kaggle, un autre dataset qui est une partie de votre dataset final

Ressources

  • exemples

    En cliquant sur chaque exemple, vous avez les liens kaggle