Apache Spark
Avancé
Mise en cache stratégique d'un DataFrame réutilisé

Type d'évaluation

Mise en situation réelle

Analyse

Intelligence Artificielle

Compétences ciblées

spark
cache
persist
performance
pipeline

Scénario Technique

Contexte Un pipeline de reporting utilise un même DataFrame transformé dans cinq chemins de calcul différents. Le Problème Chaque utilisation du DataFrame relance entièrement le plan d'exécution depuis la source, multipliant inutilement les lectures disque. Contraintes Appliquer cache() ou persist() au bon niveau du pipeline. Choisir le niveau de stockage adapté (MEMORY_AND_DISK). Appeler unpersist() en fin de traitement. Livrable attendu Un pipeline PySpark avec stratégie de cache explicite réduisant les recalculs inutiles.

Prêt à évaluer ce talent ?

Accédez à l'interface de test complète pour soumettre votre architecture ou votre code.

Commencer le Défis
    Apache Spark - Mise en cache stratégique d'un DataFrame réutilisé | Défi Technique & Recrutement — CodeDuel