Apache Spark
Avancé
Mise en cache stratégique d'un DataFrame réutilisé
Type d'évaluation
Mise en situation réelle
Analyse
Intelligence Artificielle
Compétences ciblées
spark
cache
persist
performance
pipeline
Scénario Technique
Contexte Un pipeline de reporting utilise un même DataFrame transformé dans cinq chemins de calcul différents. Le Problème Chaque utilisation du DataFrame relance entièrement le plan d'exécution depuis la source, multipliant inutilement les lectures disque. Contraintes Appliquer cache() ou persist() au bon niveau du pipeline. Choisir le niveau de stockage adapté (MEMORY_AND_DISK). Appeler unpersist() en fin de traitement. Livrable attendu Un pipeline PySpark avec stratégie de cache explicite réduisant les recalculs inutiles.
Prêt à évaluer ce talent ?
Accédez à l'interface de test complète pour soumettre votre architecture ou votre code.