Optimisation d'un job Spark souffrant de data skew

Type d'évaluation

Mise en situation réelle

Analyse

Intelligence Artificielle

Compétences ciblées

spark

performance

skew

salting

optimisation

Scénario Technique

Contexte Un job PySpark effectuant une jointure entre un DataFrame de transactions et un référentiel clients produit des temps d'exécution anormalement longs. Le Problème La distribution des données est déséquilibrée : quelques valeurs de client_id concentrent 80% des lignes, provoquant un skew important sur certains executors. Contraintes Analyser la distribution avec groupBy().count(). Implémenter une stratégie salting pour redistribuer les clés skewed. Ne pas modifier le schéma de sortie. Livrable attendu Un script PySpark appliquant la technique de salting pour corriger le data skew et améliorer la distribution des partitions.

Prêt à évaluer ce talent ?

Accédez à l'interface de test complète pour soumettre votre architecture ou votre code.