Type d'évaluation
Mise en situation réelle
Analyse
Intelligence Artificielle
Compétences ciblées
Scénario Technique
Contexte Un pipeline ETL charge quotidiennement des logs applicatifs et doit les transformer avant persistance. Le Problème Le pipeline actuel utilise un nombre de partitions par défaut inadapté, générant soit trop de petits fichiers soit des partitions trop volumineuses. Contraintes Utiliser repartition() ou coalesce() selon le contexte. Définir le nombre de partitions en fonction du volume estimé (128MB par partition). Justifier le choix entre repartition et coalesce. Livrable attendu Un pipeline ETL PySpark avec gestion explicite du nombre de partitions adaptée aux deux phases de transformation et d'écriture.
Prêt à évaluer ce talent ?
Accédez à l'interface de test complète pour soumettre votre architecture ou votre code.