Apache Spark
Expert
Implémentation d'un SCD Type 2 distribué avec Spark

Type d'évaluation

Mise en situation réelle

Analyse

Intelligence Artificielle

Compétences ciblées

spark
scd2
historisation
datawarehouse
pyspark

Scénario Technique

Contexte Un datawarehouse doit maintenir l'historique complet des changements de statut client (Slowly Changing Dimension Type 2). Le Problème L'implémentation actuelle écrase les valeurs existantes sans conserver l'historique, perdant l'évolution des données dans le temps. Contraintes Utiliser join() et Window Functions pour identifier les enregistrements modifiés. Gérer les colonnes valid_from, valid_to et is_current. Assurer idempotence du traitement en cas de rejeu. Livrable attendu Un script PySpark implémentant un SCD Type 2 complet avec gestion de l'historique et idempotence garantie.

Prêt à évaluer ce talent ?

Accédez à l'interface de test complète pour soumettre votre architecture ou votre code.

Commencer le Défis