Apache Spark
Avancé
Correction d’un problème de shuffle excessif dans une agrégation
Type d'évaluation
Mise en situation réelle
Analyse
Intelligence Artificielle
Compétences ciblées
shuffle
aggregation
performance
optimization
big-data
Scénario Technique
Contexte : Une agrégation groupBy sur un dataset volumineux provoque un shuffle massif. Le Problème : Le plan d’exécution montre une redistribution excessive des données. Extrait actuel : df.groupBy("region").count() La colonne region contient peu de valeurs distinctes. Contraintes : Optimiser la stratégie d’agrégation. Ajuster le partitionnement si nécessaire. Réduire l’impact réseau. Livrable attendu : Proposer une optimisation permettant de limiter le shuffle et améliorer le temps d’exécution.
Prêt à évaluer ce talent ?
Accédez à l'interface de test complète pour soumettre votre architecture ou votre code.