Apache Spark - Optimisation d’un job Spark avec partitionnement adapté

Apache Spark

Avancé

Optimisation d’un job Spark avec partitionnement adapté

Type d'évaluation

Mise en situation réelle

Analyse

Intelligence Artificielle

Compétences ciblées

partitioning

performance

shuffle

optimization

big-data

Scénario Technique

Contexte : Un job Spark traite quotidiennement plusieurs centaines de gigaoctets de données transactionnelles. Le Problème : Les temps d’exécution sont instables à cause d’un partitionnement non maîtrisé, provoquant des tâches déséquilibrées. Contraintes : Analyser le nombre de partitions existantes. Ajuster via repartition ou coalesce selon le cas. Éviter les shuffles inutiles. Maintenir une bonne parallélisation. Livrable attendu : Proposer une stratégie de partitionnement optimisée permettant d’améliorer la stabilité et les performances du job Spark.

Prêt à évaluer ce talent ?

Accédez à l'interface de test complète pour soumettre votre architecture ou votre code.

Commencer le Défis