Type d'évaluation
Mise en situation réelle
Analyse
Intelligence Artificielle
Compétences ciblées
Scénario Technique
Contexte Un job Spark de traitement de logs échoue régulièrement avec des erreurs OutOfMemoryError sur les executors. Le Problème Le job effectue plusieurs collect() sur des DataFrames volumineux et utilise des broadcast joins non maîtrisés. Code actuel result = large_df.join(another_large_df, "id").collect() for row in result: process(row) Contraintes Remplacer collect() par des actions adaptées. Utiliser broadcast() uniquement sur les petits DataFrames. Traiter les données sans ramener l'ensemble en mémoire driver. Livrable attendu Un script PySpark corrigé évitant les collect() abusifs et utilisant correctement les broadcast joins.
Prêt à évaluer ce talent ?
Accédez à l'interface de test complète pour soumettre votre architecture ou votre code.