Apache Spark
Avancé
Correction d'un shuffle excessif dans une jointure multi-tables

Type d'évaluation

Mise en situation réelle

Analyse

Intelligence Artificielle

Compétences ciblées

spark
shuffle
broadcast
join
optimisation

Scénario Technique

Contexte Un job analytique effectue trois jointures successives entre tables de grande taille, générant un temps d'exécution de plus de 45 minutes. Le Problème Chaque jointure déclenche un shuffle complet des données, aucune optimisation n'est appliquée. Contraintes Analyser le plan avec explain(True). Identifier les jointures éligibles au broadcast. Réordonner les jointures pour minimiser le volume shufflé. Livrable attendu Un script PySpark optimisé réduisant le nombre de shuffles via broadcast joins et réordonnancement des opérations.

Prêt à évaluer ce talent ?

Accédez à l'interface de test complète pour soumettre votre architecture ou votre code.

Commencer le Défis