IA - Penninghen

Datasets
DatasetsNotebooksKaggleModèlesglossaireliens utiles
Cours
edit

IA - Penninghen

Documentation — Modèles

Modèles & approches courants sur Kaggle

Les exemples ci-dessous sont tous utilisables dans des notebooks Kaggle (via scikit-learn, XGBoost, LightGBM, CatBoost, PyTorch, TensorFlow, etc.).

1- Types de modèles / approches

ApprocheExemples de modèles / libsQuand l’utiliserPoints d’attention
Régression linéaire / logistiqueLinearRegression, LogisticRegression (scikit-learn)Tabulaire simple (prix, scores, classes binaires), baseline rapideSous-performant si non-linéarités fortes / interactions
Arbres & ForêtsDecisionTree, RandomForest, ExtraTreesTabulaire mixte (numérique + catégoriel), peu de prétraitementPeut surapprendre, moins performant que le boosting sur Kaggle
Gradient BoostingXGBoost, LightGBM, CatBoostGold standard pour tabulaire (classement/régression)Hyperparamètres à tuner, attention au leakage
Réseaux de neurones (MLP)PyTorch / TensorFlow (denses)Tabulaire complexe, interactions non-linéairesMoins souvent top-tier en tabulaire vs LightGBM/XGB
Vision — CNN / TransformersResNet, EfficientNet, MobileNet, ConvNeXt, ViTClassification d’images (peu ou bcp d’images)Nécessite GPU, data augmentation, early stopping
Vision — DétectionYOLOv5/v8, Faster R-CNN, RetinaNetBoîtes englobantes (objets, comptage, scènes)Annotations bbox requises, taille d’image/anchors
Vision — SegmentationU-Net, UNet++, DeepLabV3, SegFormerMasques pixel-par-pixel (médical, satellite)Masques précis, pertes adaptées (Dice, Focal)
NLP — ClassificationBERT, DistilBERT, RoBERTa, CamemBERT, XLM-RSentiment, topics, toxicité, multilingueNettoyage texte, max length, fine-tuning
NLP — Génération / Seq2SeqT5, mT5, BART, GPT-2 (petits)Résumé, traduction, Q/R contrôléeCoût compute, contrôle de la sortie
Séries temporellesARIMA, Prophet, LSTM/GRU, TFT (Temporal Fusion Transformer), LightGBM/XGB (features de lag)Prévision (vente, météo, capteurs)Fuites temporelles, validation par blocs temps
ClusteringKMeans, DBSCAN, HDBSCANDécouverte de groupes sans labelsChoix de k/epsilon, scaling features
Détection d’anomaliesIsolationForest, One-Class SVM, AutoencodersFraude, pannes rares, outliersDéséquilibre extrême, métriques adaptées (AUPRC)
RecommendationSVD/SVD++, ALS (implicit), LightFMFiltrage collaboratif, similaritésFroid démarrage, sparse matrices
MultimodalCLIP, BLIP-2 (image+texte)Aligner image/texte (recherche, tags)Modèles lourds, besoin de GPU

2- Quel modèle selon le type de dataset ?

Type de datasetModèles conseillés (noms)Pourquoi
Tabulaire (petit → moyen)LightGBM, XGBoost, CatBoost, baseline avec Logistic/LinearRegression, RandomForestExcellents perfs en tabulaire, gèrent bien mix num/cat
Tabulaire (grand / complexe)LightGBM/XGBoost + features, essais MLP si interactions fortesRapide et robuste, scalable
Images — classificationEfficientNet-B0/B3, ResNet-50, MobileNetV3, ConvNeXt-T, ViT-B/16Transfert learning efficace même avec peu d’images
Images — détectionYOLOv5/v8, Faster R-CNN, RetinaNetRéférences pour bounding boxes
Images — segmentationU-Net, UNet++, DeepLabV3, SegFormerMasques précis par pixel
Texte — classificationCamemBERT (FR), BERT, DistilBERT, RoBERTa, XLM-R (multi)Excellents pour sentiment/topics, FR inclus
Texte — génération/summarizationT5/mT5, BART (résumés), petits GPT-2 contrôlésSeq2Seq performants en résumé/trad
Séries temporellesProphet, ARIMA, LightGBM/XGBoost avec features de lag, LSTM/GRU, TFTPrévisions robustes, gèrent saisonnalités
Clustering (sans labels)KMeans, DBSCAN, HDBSCANDécouverte de groupes / structures
Anomalies / fraudeIsolationForest, One-Class SVM, autoencodersRepèrent les cas rares / atypiques
RecommendationLightFM, ALS (implicit), SVD++Filtrage collaboratif éprouvé
Multimodal (image+texte)CLIP, BLIP-2Alignement visuel/texte, recherche sémantique

Astuce : commence par une baseline simple (ex. LogisticRegression ou LightGBM par défaut), mets en place une validation propre, puis ajoute progressivement features, transfert learning et tuning.