Conception d'un moteur de feature engineering distribué pour ML

Type d'évaluation

Mise en situation réelle

Analyse

Intelligence Artificielle

Compétences ciblées

spark

feature-engineering

mllib

window

Scénario Technique

Contexte Une équipe MLOps doit préparer un feature store à partir de données brutes pour alimenter des modèles de scoring crédit. Le Problème Le calcul des features (moyennes glissantes, ratios, encodage) est réalisé en pandas sur un échantillon, rendant impossible le déploiement sur le dataset complet de 50 millions de lignes. Contraintes Implémenter les features avec Window Functions pour les agrégats temporels. Utiliser VectorAssembler de MLlib pour la préparation finale. Éviter tout collect() ou toPandas() sur les données complètes. Livrable attendu Un pipeline PySpark de feature engineering entièrement distribué produisant un DataFrame compatible MLlib.

Prêt à évaluer ce talent ?

Accédez à l'interface de test complète pour soumettre votre architecture ou votre code.