IA - Penninghen

Datasets
DatasetsNotebooksKaggleModèlesglossaireliens utiles
Cours
edit

IA - Penninghen

Documentation — Datasets

Objectif : produire un dataset clair, documenté et réutilisable (Kaggle ou Hugging Face).

1- Définition

Un dataset est un ensemble structuré de données : images, texte, tableurs, audio/vidéo, etc...
Il doit être compréhensible, documenté et partageable.

2- Méthode

A. Définir le sujet

  • Exemples : « The Metropolitan Museum - photographies », « Objets design par décennie », « Dialogues de film ».
  • Vérifier disponibilité et licences (domaine public, CC BY, etc...).

B. Collecter

  • Institutions : musées, bibliothèques, data.gouv.fr, Wikidata, OpenStreetMap, open datas API
  • Vos propres données : librairie de photos, correspondances etc...

C. Organiser

Arborescence type :

mon-dataset/
						images/               # tous les médias (JPG/PNG/MP4/MP3...)
						data.csv              # tableau décrivant les items
						README.md             # documentation (obligatoire)
						LICENSE               # licence choisie
						

Télécharger un exemple de fichier csv

(Un fichier csv s'ouvre avec Excel ou Number)

D. Documenter

  • README.md : description, sources, qualité, limites, exemples d’usage.
  • Indiquer la licence (CC0 Public Domain, CC BY 4.0, etc.).
  • Fichier LICENCE
  • Choisissez une licence et mettez son texte dans un fichier LICENSE.

    • CC0 1.0 Domaine public (aucune obligation de citation).
    • CC BY 4.0 Libre, citation de l’auteur·e requise.

3- Outils

  • Tableur : Excel, Google Sheets, LibreOffice Calc (export CSV UTF‑8).
  • Exploration : Google Colab, Kaggle Notebooks, Jupyter.
  • Publication : Kaggle Datasets, Hugging Face Datasets.
  • Versioning : GitHub (optionnel, pratique en équipe).

4- Bonnes pratiques

  • Noms de fichiers simples (sans espaces/accents), ex : IMG_0001.jpg.
  • Colonnes en snake_case : author_name, capture_year.
  • Pas de doublons, liens valides, tailles d’images raisonnables.
  • Toujours citer les sources et la licence.
  • Fournir un exemple d’usage (mini notebook ou captures).

5- Vérification finale

  • Dossier propre + data.csv valide (UTF‑8, séparateur virgule).
  • README.md rempli, sources et licence indiquées.
  • Aucun doublon, noms de fichiers cohérents.
  • Exemple d’usage fourni.

Ressources

  • Télécharger un dossier type