Correction d’un modèle avec fuite de données via vocabulaire global

Type d'évaluation

Mise en situation réelle

Analyse

Intelligence Artificielle

Compétences ciblées

data-leakage

vectorization

classification

bugfix

pipeline

Scénario Technique

Contexte : Un modèle de classification de texte affiche des performances très élevées. Le Problème : Le vectorizer a été entraîné sur l’ensemble complet des données avant le split. Extrait logique actuelle : vectorizer.fit(all_texts) train_test_split(texts, labels) Contraintes : Adapter le pipeline pour que le vectorizer soit entraîné uniquement sur le train. Réappliquer sur le test. Éviter toute fuite. Livrable attendu : Corriger le pipeline afin de garantir une évaluation réaliste sans data leakage.

Prêt à évaluer ce talent ?

Accédez à l'interface de test complète pour soumettre votre architecture ou votre code.