Type d'évaluation
Mise en situation réelle
Analyse
Intelligence Artificielle
Compétences ciblées
Scénario Technique
Contexte Une équipe MLOps doit préparer un feature store à partir de données brutes pour alimenter des modèles de scoring crédit. Le Problème Le calcul des features (moyennes glissantes, ratios, encodage) est réalisé en pandas sur un échantillon, rendant impossible le déploiement sur le dataset complet de 50 millions de lignes. Contraintes Implémenter les features avec Window Functions pour les agrégats temporels. Utiliser VectorAssembler de MLlib pour la préparation finale. Éviter tout collect() ou toPandas() sur les données complètes. Livrable attendu Un pipeline PySpark de feature engineering entièrement distribué produisant un DataFrame compatible MLlib.
Prêt à évaluer ce talent ?
Accédez à l'interface de test complète pour soumettre votre architecture ou votre code.