Apache Spark
Avancé
Correction d'un shuffle excessif dans une jointure multi-tables
Type d'évaluation
Mise en situation réelle
Analyse
Intelligence Artificielle
Compétences ciblées
spark
shuffle
broadcast
join
optimisation
Scénario Technique
Contexte Un job analytique effectue trois jointures successives entre tables de grande taille, générant un temps d'exécution de plus de 45 minutes. Le Problème Chaque jointure déclenche un shuffle complet des données, aucune optimisation n'est appliquée. Contraintes Analyser le plan avec explain(True). Identifier les jointures éligibles au broadcast. Réordonner les jointures pour minimiser le volume shufflé. Livrable attendu Un script PySpark optimisé réduisant le nombre de shuffles via broadcast joins et réordonnancement des opérations.
Prêt à évaluer ce talent ?
Accédez à l'interface de test complète pour soumettre votre architecture ou votre code.