Apache Spark - Écriture d'un DataFrame Spark en format Parquet | Défi Technique & Recrutement

Apache Spark

Fondamental

Écriture d'un DataFrame Spark en format Parquet

Type d'évaluation

Mise en situation réelle

Analyse

Intelligence Artificielle

Compétences ciblées

spark

pyspark

parquet

write

partitioning

Scénario Technique

Contexte Un pipeline de données génère un DataFrame de résultats qui doit être persisté pour une consommation ultérieure. Le Problème Les résultats sont actuellement sauvegardés en CSV, format peu efficace pour les requêtes analytiques. Contraintes Écrire le DataFrame en format Parquet avec compression snappy. Utiliser le mode overwrite. Partitionner par la colonne pays. Livrable attendu Un script PySpark sauvegardant correctement un DataFrame en Parquet avec partitionnement et compression.

Prêt à évaluer ce talent ?

Accédez à l'interface de test complète pour soumettre votre architecture ou votre code.

Commencer le Défis