Type d'évaluation
Mise en situation réelle
Analyse
Intelligence Artificielle
Compétences ciblées
Scénario Technique
Contexte Un datalake stocke des données partitionnées par date au format Parquet. Le pipeline doit traiter uniquement les nouvelles partitions quotidiennement. Le Problème Le job actuel recharge l'intégralité des données à chaque exécution, ignorant le partitionnement existant. Contraintes Utiliser un filtre sur la colonne de partition pour partition pruning. Passer la date cible comme paramètre externe. Vérifier via explain() que le pruning est bien appliqué. Livrable attendu Un script PySpark exploitant le partition pruning pour une lecture incrémentielle efficace avec vérification du plan d'exécution.
Prêt à évaluer ce talent ?
Accédez à l'interface de test complète pour soumettre votre architecture ou votre code.