Hadoop - Optimisation d’un job MapReduce souffrant de data skew

Hadoop

Avancé

Optimisation d’un job MapReduce souffrant de data skew

Type d'évaluation

Mise en situation réelle

Analyse

Intelligence Artificielle

Compétences ciblées

mapreduce

data-skew

partitioner

performance

big-data

Scénario Technique

Contexte : Votre cluster Hadoop exécute un job MapReduce quotidien pour analyser des logs applicatifs volumineux. Le Problème : Certaines tâches Reduce prennent beaucoup plus de temps que les autres car certaines clés sont extrêmement fréquentes, provoquant un déséquilibre (data skew). Contraintes : Analyser la distribution des clés intermédiaires. Éviter une modification complète de la logique métier. Limiter l’impact sur le temps total d’exécution et la charge réseau. Livrable attendu : Proposer une stratégie technique (custom partitioner, combiner, salting) permettant de corriger le déséquilibre des reducers et stabiliser le temps d’exécution.

Prêt à évaluer ce talent ?

Accédez à l'interface de test complète pour soumettre votre architecture ou votre code.

Commencer le Défis