Type d'évaluation
Mise en situation réelle
Analyse
Intelligence Artificielle
Compétences ciblées
Scénario Technique
Contexte Un pipeline Spark génère plusieurs milliers de petits fichiers Parquet par jour, dégradant progressivement les performances de lecture HDFS et surchargeant le NameNode. Le Problème Chaque micro-batch Spark écrit autant de fichiers que de partitions actives, produisant des fichiers de quelques Ko. Contraintes Impémenter une stratégie de compaction post-écriture avec coalesce(). Configurer le nombre de fichiers cibles en fonction de la taille optimale (128-256MB). Automatiser la compaction sans interruption du pipeline principal. Livrable attendu Une stratégie de compaction PySpark réduisant le nombre de fichiers produits et maintenant des tailles de fichiers optimales pour HDFS.
Prêt à évaluer ce talent ?
Accédez à l'interface de test complète pour soumettre votre architecture ou votre code.