Optimisation d’un data lake avec gestion des petits fichiers

Type d'évaluation

Mise en situation réelle

Analyse

Intelligence Artificielle

Compétences ciblées

data-lake

small-files

compaction

performance

optimization

Scénario Technique

Contexte : Le data lake contient des millions de petits fichiers générés par des jobs Spark successifs. Le Problème : Les performances de lecture se dégradent fortement à cause du small files problem. Contraintes : Mettre en place une stratégie de compaction périodique. Ajuster la taille cible des fichiers. Optimiser la configuration d’écriture. Livrable attendu : Proposer une solution complète de gestion des petits fichiers améliorant la performance globale du cluster.

Prêt à évaluer ce talent ?

Accédez à l'interface de test complète pour soumettre votre architecture ou votre code.