Apache Spark - Lecture incrémentielle avec filtrage sur partition date

Apache Spark

Avancé

Lecture incrémentielle avec filtrage sur partition date

Type d'évaluation

Mise en situation réelle

Analyse

Intelligence Artificielle

Compétences ciblées

spark

partition-pruning

parquet

incremental

performance

Scénario Technique

Contexte Un datalake stocke des données partitionnées par date au format Parquet. Le pipeline doit traiter uniquement les nouvelles partitions quotidiennement. Le Problème Le job actuel recharge l'intégralité des données à chaque exécution, ignorant le partitionnement existant. Contraintes Utiliser un filtre sur la colonne de partition pour partition pruning. Passer la date cible comme paramètre externe. Vérifier via explain() que le pruning est bien appliqué. Livrable attendu Un script PySpark exploitant le partition pruning pour une lecture incrémentielle efficace avec vérification du plan d'exécution.

Prêt à évaluer ce talent ?

Accédez à l'interface de test complète pour soumettre votre architecture ou votre code.

Commencer le Défis