Apache Spark
Avancé
Optimisation d’un job Spark avec partitionnement adapté
Type d'évaluation
Mise en situation réelle
Analyse
Intelligence Artificielle
Compétences ciblées
partitioning
performance
shuffle
optimization
big-data
Scénario Technique
Contexte : Un job Spark traite quotidiennement plusieurs centaines de gigaoctets de données transactionnelles. Le Problème : Les temps d’exécution sont instables à cause d’un partitionnement non maîtrisé, provoquant des tâches déséquilibrées. Contraintes : Analyser le nombre de partitions existantes. Ajuster via repartition ou coalesce selon le cas. Éviter les shuffles inutiles. Maintenir une bonne parallélisation. Livrable attendu : Proposer une stratégie de partitionnement optimisée permettant d’améliorer la stabilité et les performances du job Spark.
Prêt à évaluer ce talent ?
Accédez à l'interface de test complète pour soumettre votre architecture ou votre code.