NLP
Avancé
Correction d’un modèle avec fuite de données via vocabulaire global
Type d'évaluation
Mise en situation réelle
Analyse
Intelligence Artificielle
Compétences ciblées
data-leakage
vectorization
classification
bugfix
pipeline
Scénario Technique
Contexte : Un modèle de classification de texte affiche des performances très élevées. Le Problème : Le vectorizer a été entraîné sur l’ensemble complet des données avant le split. Extrait logique actuelle : vectorizer.fit(all_texts) train_test_split(texts, labels) Contraintes : Adapter le pipeline pour que le vectorizer soit entraîné uniquement sur le train. Réappliquer sur le test. Éviter toute fuite. Livrable attendu : Corriger le pipeline afin de garantir une évaluation réaliste sans data leakage.
Prêt à évaluer ce talent ?
Accédez à l'interface de test complète pour soumettre votre architecture ou votre code.