Optimisation d’une lecture de fichiers multiples de petite taille

Type d'évaluation

Mise en situation réelle

Analyse

Intelligence Artificielle

Compétences ciblées

small-files

performance

configuration

optimization

big-data

Scénario Technique

Contexte : Le job Spark lit des milliers de petits fichiers depuis un stockage distribué. Le Problème : Les performances sont dégradées à cause du small files problem. Contraintes : Regrouper les fichiers ou ajuster la configuration spark.sql.files.maxPartitionBytes. Maintenir la scalabilité. Livrable attendu : Proposer une stratégie pour limiter l’impact des petits fichiers sur la performance globale.

Prêt à évaluer ce talent ?

Accédez à l'interface de test complète pour soumettre votre architecture ou votre code.