Conception d'un pipeline multi-sources avec reconciliation et qualité

Type d'évaluation

Mise en situation réelle

Analyse

Intelligence Artificielle

Compétences ciblées

spark

multi-source

reconciliation

data-quality

pipeline

Scénario Technique

Contexte Une entreprise doit consolider des données clients provenant de trois sources hétérogènes (PostgreSQL via JDBC, S3 Parquet, API REST en JSON) avec des règles de réconciliation métier. Le Problème Les trois sources ont des schémas différents, des doublons inter-sources et des règles de priorité (la source PostgreSQL prime sur S3 qui prime sur l'API). Contraintes Créer un pipeline unifié avec gestion explicite des conflits. Implémenter des règles de qualité avec assertions sur les counts et nullity rates. Logger les rejets dans un DataFrame d'anomalies séparé. Livrable attendu Un pipeline PySpark multi-sources avec réconciliation priorisée, contrôles qualité et journalisation des anomalies.

Prêt à évaluer ce talent ?

Accédez à l'interface de test complète pour soumettre votre architecture ou votre code.