Apache Spark
Expert
Optimisation d’un data lake avec gestion des petits fichiers
Type d'évaluation
Mise en situation réelle
Analyse
Intelligence Artificielle
Compétences ciblées
data-lake
small-files
compaction
performance
optimization
Scénario Technique
Contexte : Le data lake contient des millions de petits fichiers générés par des jobs Spark successifs. Le Problème : Les performances de lecture se dégradent fortement à cause du small files problem. Contraintes : Mettre en place une stratégie de compaction périodique. Ajuster la taille cible des fichiers. Optimiser la configuration d’écriture. Livrable attendu : Proposer une solution complète de gestion des petits fichiers améliorant la performance globale du cluster.
Prêt à évaluer ce talent ?
Accédez à l'interface de test complète pour soumettre votre architecture ou votre code.