Création d'une SparkSession et lecture d'un fichier CSV

Type d'évaluation

Mise en situation réelle

Analyse

Intelligence Artificielle

Compétences ciblées

spark

pyspark

sparksession

csv

dataframe

Scénario Technique

Contexte Une équipe data souhaite démarrer un traitement analytique sur un fichier de ventes au format CSV. Le Problème Le script Python actuel utilise pandas pour lire le fichier, ce qui ne passe pas à l'échelle sur des volumes importants. Code actuel import pandas as pd df = pd.read_csv("/data/sales.csv") print(df.head()) Contraintes Remplacer pandas par PySpark. Créer une SparkSession correctement configurée. Lire le fichier CSV avec inférence de schéma activée. Livrable attendu Un script PySpark fonctionnel créant une SparkSession, lisant le CSV et affichant les 5 premières lignes via show().

Prêt à évaluer ce talent ?

Accédez à l'interface de test complète pour soumettre votre architecture ou votre code.