Apache Spark
Avancé
Optimisation d’une lecture de fichiers multiples de petite taille
Type d'évaluation
Mise en situation réelle
Analyse
Intelligence Artificielle
Compétences ciblées
small-files
performance
configuration
optimization
big-data
Scénario Technique
Contexte : Le job Spark lit des milliers de petits fichiers depuis un stockage distribué. Le Problème : Les performances sont dégradées à cause du small files problem. Contraintes : Regrouper les fichiers ou ajuster la configuration spark.sql.files.maxPartitionBytes. Maintenir la scalabilité. Livrable attendu : Proposer une stratégie pour limiter l’impact des petits fichiers sur la performance globale.
Prêt à évaluer ce talent ?
Accédez à l'interface de test complète pour soumettre votre architecture ou votre code.