Apache Spark
Fondamental
Filtrage et sélection de colonnes sur un DataFrame Spark
Type d'évaluation
Mise en situation réelle
Analyse
Intelligence Artificielle
Compétences ciblées
spark
pyspark
dataframe
filter
select
Scénario Technique
Contexte Un pipeline de données charge un fichier de transactions bancaires et doit extraire uniquement les transactions supérieures à 1000€. Le Problème Le script charge toutes les colonnes et toutes les lignes sans filtrage, générant un volume inutile en mémoire. Contraintes Utiliser les méthodes select() et filter() de l'API DataFrame. Ne conserver que les colonnes id, montant et date. Filtrer les lignes où montant > 1000. Livrable attendu Un script PySpark appliquant correctement sélection de colonnes et filtrage conditionnel sur le DataFrame.
Prêt à évaluer ce talent ?
Accédez à l'interface de test complète pour soumettre votre architecture ou votre code.