Apache Spark - Résolution d'un problème de small files aggravant les performances HDFS

Apache Spark

Expert

Résolution d'un problème de small files aggravant les performances HDFS

Type d'évaluation

Mise en situation réelle

Analyse

Intelligence Artificielle

Compétences ciblées

spark

small-files

compaction

hdfs

performance

Scénario Technique

Contexte Un pipeline Spark génère plusieurs milliers de petits fichiers Parquet par jour, dégradant progressivement les performances de lecture HDFS et surchargeant le NameNode. Le Problème Chaque micro-batch Spark écrit autant de fichiers que de partitions actives, produisant des fichiers de quelques Ko. Contraintes Impémenter une stratégie de compaction post-écriture avec coalesce(). Configurer le nombre de fichiers cibles en fonction de la taille optimale (128-256MB). Automatiser la compaction sans interruption du pipeline principal. Livrable attendu Une stratégie de compaction PySpark réduisant le nombre de fichiers produits et maintenant des tailles de fichiers optimales pour HDFS.

Prêt à évaluer ce talent ?

Accédez à l'interface de test complète pour soumettre votre architecture ou votre code.

Commencer le Défis