Correction d’un broadcast join mal configuré

Type d'évaluation

Mise en situation réelle

Analyse

Intelligence Artificielle

Compétences ciblées

broadcast-join

optimization

performance

shuffle

big-data

Scénario Technique

Contexte : Une petite table de référence est jointe à une table volumineuse. Le Problème : Spark n’utilise pas automatiquement le broadcast join, entraînant un shuffle inutile. Extrait actuel : df_large.join(df_small, "id") La table df_small est suffisamment petite pour être diffusée. Contraintes : Forcer un broadcast join si pertinent. Vérifier que la taille reste raisonnable. Livrable attendu : Proposer une version optimisée de la jointure utilisant broadcast pour réduire le shuffle.

Prêt à évaluer ce talent ?

Accédez à l'interface de test complète pour soumettre votre architecture ou votre code.