Apache Spark
Avancé
Correction d’un skew de données lors d’une jointure
Type d'évaluation
Mise en situation réelle
Analyse
Intelligence Artificielle
Compétences ciblées
data-skew
join
performance
optimization
big-data
Scénario Technique
Contexte : Une jointure entre deux DataFrames volumineux entraîne un ralentissement important. Le Problème : Certaines clés sont très fréquentes, provoquant un data skew et des tâches déséquilibrées. Extrait actuel : df1.join(df2, "user_id") Certaines valeurs de user_id dominent largement. Contraintes : Identifier le skew. Utiliser des techniques comme salting ou broadcast join si approprié. Minimiser le shuffle. Livrable attendu : Proposer une solution technique permettant de corriger le déséquilibre des partitions lors de la jointure.
Prêt à évaluer ce talent ?
Accédez à l'interface de test complète pour soumettre votre architecture ou votre code.