Implémentation d'un pipeline ETL avec gestion des partitions

Type d'évaluation

Mise en situation réelle

Analyse

Intelligence Artificielle

Compétences ciblées

spark

etl

partitions

repartition

coalesce

Scénario Technique

Contexte Un pipeline ETL charge quotidiennement des logs applicatifs et doit les transformer avant persistance. Le Problème Le pipeline actuel utilise un nombre de partitions par défaut inadapté, générant soit trop de petits fichiers soit des partitions trop volumineuses. Contraintes Utiliser repartition() ou coalesce() selon le contexte. Définir le nombre de partitions en fonction du volume estimé (128MB par partition). Justifier le choix entre repartition et coalesce. Livrable attendu Un pipeline ETL PySpark avec gestion explicite du nombre de partitions adaptée aux deux phases de transformation et d'écriture.

Prêt à évaluer ce talent ?

Accédez à l'interface de test complète pour soumettre votre architecture ou votre code.