Correction d’un skew de données lors d’une jointure

Type d'évaluation

Mise en situation réelle

Analyse

Intelligence Artificielle

Compétences ciblées

data-skew

join

performance

optimization

big-data

Scénario Technique

Contexte : Une jointure entre deux DataFrames volumineux entraîne un ralentissement important. Le Problème : Certaines clés sont très fréquentes, provoquant un data skew et des tâches déséquilibrées. Extrait actuel : df1.join(df2, "user_id") Certaines valeurs de user_id dominent largement. Contraintes : Identifier le skew. Utiliser des techniques comme salting ou broadcast join si approprié. Minimiser le shuffle. Livrable attendu : Proposer une solution technique permettant de corriger le déséquilibre des partitions lors de la jointure.

Prêt à évaluer ce talent ?

Accédez à l'interface de test complète pour soumettre votre architecture ou votre code.