Correction d’un modèle entraîné sans nettoyage minimal du texte

Type d'évaluation

Mise en situation réelle

Analyse

Intelligence Artificielle

Compétences ciblées

preprocessing

text-cleaning

classification

bugfix

tfidf

Scénario Technique

Contexte : Un modèle de classification de texte affiche des performances faibles. Le Problème : Les textes contiennent majuscules, ponctuation et caractères spéciaux non traités. Extrait logique actuelle : vectorizer.fit_transform(raw_texts) Sans prétraitement. Contraintes : Mettre en place nettoyage simple (lowercase, suppression ponctuation, stopwords). Réentraîner le modèle. Comparer performance avant/après. Livrable attendu : Corriger le pipeline NLP en intégrant un prétraitement de base améliorant la qualité des features.

Prêt à évaluer ce talent ?

Accédez à l'interface de test complète pour soumettre votre architecture ou votre code.