Type d'évaluation
Mise en situation réelle
Analyse
Intelligence Artificielle
Compétences ciblées
Scénario Technique
Contexte Une entreprise doit consolider des données clients provenant de trois sources hétérogènes (PostgreSQL via JDBC, S3 Parquet, API REST en JSON) avec des règles de réconciliation métier. Le Problème Les trois sources ont des schémas différents, des doublons inter-sources et des règles de priorité (la source PostgreSQL prime sur S3 qui prime sur l'API). Contraintes Créer un pipeline unifié avec gestion explicite des conflits. Implémenter des règles de qualité avec assertions sur les counts et nullity rates. Logger les rejets dans un DataFrame d'anomalies séparé. Livrable attendu Un pipeline PySpark multi-sources avec réconciliation priorisée, contrôles qualité et journalisation des anomalies.
Prêt à évaluer ce talent ?
Accédez à l'interface de test complète pour soumettre votre architecture ou votre code.