Apache Spark
Fondamental
Filtrage et sélection de colonnes sur un DataFrame Spark

Type d'évaluation

Mise en situation réelle

Analyse

Intelligence Artificielle

Compétences ciblées

spark
pyspark
dataframe
filter
select

Scénario Technique

Contexte Un pipeline de données charge un fichier de transactions bancaires et doit extraire uniquement les transactions supérieures à 1000€. Le Problème Le script charge toutes les colonnes et toutes les lignes sans filtrage, générant un volume inutile en mémoire. Contraintes Utiliser les méthodes select() et filter() de l'API DataFrame. Ne conserver que les colonnes id, montant et date. Filtrer les lignes où montant > 1000. Livrable attendu Un script PySpark appliquant correctement sélection de colonnes et filtrage conditionnel sur le DataFrame.

Prêt à évaluer ce talent ?

Accédez à l'interface de test complète pour soumettre votre architecture ou votre code.

Commencer le Défis
    Apache Spark - Filtrage et sélection de colonnes sur un DataFrame Spark | Défi Technique & Recrutement — CodeDuel