Correction d’un problème de shuffle excessif dans une agrégation

Type d'évaluation

Mise en situation réelle

Analyse

Intelligence Artificielle

Compétences ciblées

shuffle

aggregation

performance

optimization

big-data

Scénario Technique

Contexte : Une agrégation groupBy sur un dataset volumineux provoque un shuffle massif. Le Problème : Le plan d’exécution montre une redistribution excessive des données. Extrait actuel : df.groupBy("region").count() La colonne region contient peu de valeurs distinctes. Contraintes : Optimiser la stratégie d’agrégation. Ajuster le partitionnement si nécessaire. Réduire l’impact réseau. Livrable attendu : Proposer une optimisation permettant de limiter le shuffle et améliorer le temps d’exécution.

Prêt à évaluer ce talent ?

Accédez à l'interface de test complète pour soumettre votre architecture ou votre code.