Type d'évaluation
Mise en situation réelle
Analyse
Intelligence Artificielle
Compétences ciblées
Scénario Technique
Contexte Une plateforme e-commerce doit traiter en temps réel un flux Kafka de clickstream pour alimenter un tableau de bord analytique. Le Problème Le pipeline Structured Streaming actuel perd des événements lors des redémarrages car aucun checkpoint n'est configuré et les offsets Kafka ne sont pas gérés. Contraintes Configurer un checkpoint directory sur HDFS ou S3. Gérer les offsets Kafka avec startingOffsets. Implémenter une logique exactly-once via foreachBatch(). Gérer les données tardives avec watermark. Livrable attendu Un pipeline Structured Streaming PySpark tolérant aux pannes avec checkpoint, gestion des offsets et sémantique exactly-once documentée.
Prêt à évaluer ce talent ?
Accédez à l'interface de test complète pour soumettre votre architecture ou votre code.