Type d'évaluation
Mise en situation réelle
Analyse
Intelligence Artificielle
Compétences ciblées
Scénario Technique
Contexte Un job PySpark effectuant une jointure entre un DataFrame de transactions et un référentiel clients produit des temps d'exécution anormalement longs. Le Problème La distribution des données est déséquilibrée : quelques valeurs de client_id concentrent 80% des lignes, provoquant un skew important sur certains executors. Contraintes Analyser la distribution avec groupBy().count(). Implémenter une stratégie salting pour redistribuer les clés skewed. Ne pas modifier le schéma de sortie. Livrable attendu Un script PySpark appliquant la technique de salting pour corriger le data skew et améliorer la distribution des partitions.
Prêt à évaluer ce talent ?
Accédez à l'interface de test complète pour soumettre votre architecture ou votre code.