Apache Spark
Expert
Architecture d'un pipeline Spark Structured Streaming tolérant aux pannes

Type d'évaluation

Mise en situation réelle

Analyse

Intelligence Artificielle

Compétences ciblées

spark
streaming
kafka
checkpoint
fault-tolerance

Scénario Technique

Contexte Une plateforme e-commerce doit traiter en temps réel un flux Kafka de clickstream pour alimenter un tableau de bord analytique. Le Problème Le pipeline Structured Streaming actuel perd des événements lors des redémarrages car aucun checkpoint n'est configuré et les offsets Kafka ne sont pas gérés. Contraintes Configurer un checkpoint directory sur HDFS ou S3. Gérer les offsets Kafka avec startingOffsets. Implémenter une logique exactly-once via foreachBatch(). Gérer les données tardives avec watermark. Livrable attendu Un pipeline Structured Streaming PySpark tolérant aux pannes avec checkpoint, gestion des offsets et sémantique exactly-once documentée.

Prêt à évaluer ce talent ?

Accédez à l'interface de test complète pour soumettre votre architecture ou votre code.

Commencer le Défis
    Apache Spark - Architecture d'un pipeline Spark Structured Streaming tolérant aux pannes | Défi Technique & Recrutement — CodeDuel