Documentation — Datasets
Objectif : produire un dataset clair, documenté et réutilisable (Kaggle ou Hugging Face).
1- Définition
Un dataset est un ensemble structuré de données : images, texte, tableurs, audio/vidéo, etc...
Il doit être compréhensible, documenté et partageable.
2- Méthode
A. Définir le sujet
- Exemples : « The Metropolitan Museum - photographies », « Objets design par décennie », « Dialogues de film ».
- Vérifier disponibilité et licences (domaine public, CC BY, etc...).
B. Collecter
- Institutions : musées, bibliothèques, data.gouv.fr, Wikidata, OpenStreetMap, open datas API
- Vos propres données : librairie de photos, correspondances etc...
C. Organiser
Arborescence type :
mon-dataset/
images/ # tous les médias (JPG/PNG/MP4/MP3...)
data.csv # tableau décrivant les items
README.md # documentation (obligatoire)
LICENSE # licence choisie
Télécharger un exemple de fichier csv
(Un fichier csv s'ouvre avec Excel ou Number)
D. Documenter
- README.md : description, sources, qualité, limites, exemples d’usage.
- Indiquer la licence (CC0 Public Domain, CC BY 4.0, etc.).
- Fichier LICENCE
Choisissez une licence et mettez son texte dans un fichier
LICENSE.- CC0 1.0 Domaine public (aucune obligation de citation).
- CC BY 4.0 Libre, citation de l’auteur·e requise.
3- Outils
- Tableur : Excel, Google Sheets, LibreOffice Calc (export CSV UTF‑8).
- Exploration : Google Colab, Kaggle Notebooks, Jupyter.
- Publication : Kaggle Datasets, Hugging Face Datasets.
- Versioning : GitHub (optionnel, pratique en équipe).
4- Bonnes pratiques
- Noms de fichiers simples (sans espaces/accents), ex :
IMG_0001.jpg. - Colonnes en snake_case :
author_name,capture_year. - Pas de doublons, liens valides, tailles d’images raisonnables.
- Toujours citer les sources et la licence.
- Fournir un exemple d’usage (mini notebook ou captures).
5- Vérification finale
- Dossier propre +
data.csvvalide (UTF‑8, séparateur virgule). README.mdrempli, sources et licence indiquées.- Aucun doublon, noms de fichiers cohérents.
- Exemple d’usage fourni.