Apache Spark
Avancé
Correction d’un broadcast join mal configuré
Type d'évaluation
Mise en situation réelle
Analyse
Intelligence Artificielle
Compétences ciblées
broadcast-join
optimization
performance
shuffle
big-data
Scénario Technique
Contexte : Une petite table de référence est jointe à une table volumineuse. Le Problème : Spark n’utilise pas automatiquement le broadcast join, entraînant un shuffle inutile. Extrait actuel : df_large.join(df_small, "id") La table df_small est suffisamment petite pour être diffusée. Contraintes : Forcer un broadcast join si pertinent. Vérifier que la taille reste raisonnable. Livrable attendu : Proposer une version optimisée de la jointure utilisant broadcast pour réduire le shuffle.
Prêt à évaluer ce talent ?
Accédez à l'interface de test complète pour soumettre votre architecture ou votre code.