Apache Spark - Correction d'un job Spark provoquant des OutOfMemoryError

Apache Spark

Avancé

Correction d'un job Spark provoquant des OutOfMemoryError

Type d'évaluation

Mise en situation réelle

Analyse

Intelligence Artificielle

Compétences ciblées

spark

oom

broadcast

collect

performance

Scénario Technique

Contexte Un job Spark de traitement de logs échoue régulièrement avec des erreurs OutOfMemoryError sur les executors. Le Problème Le job effectue plusieurs collect() sur des DataFrames volumineux et utilise des broadcast joins non maîtrisés. Code actuel result = large_df.join(another_large_df, "id").collect() for row in result: process(row) Contraintes Remplacer collect() par des actions adaptées. Utiliser broadcast() uniquement sur les petits DataFrames. Traiter les données sans ramener l'ensemble en mémoire driver. Livrable attendu Un script PySpark corrigé évitant les collect() abusifs et utilisant correctement les broadcast joins.

Prêt à évaluer ce talent ?

Accédez à l'interface de test complète pour soumettre votre architecture ou votre code.

Commencer le Défis