Apache Spark
Fondamental
Suppression des doublons dans un DataFrame Spark

Type d'évaluation

Mise en situation réelle

Analyse

Intelligence Artificielle

Compétences ciblées

spark
pyspark
deduplication
dropduplicates
dataframe

Scénario Technique

Contexte Un fichier de contacts clients contient des lignes dupliquées issues de plusieurs sources d'import. Le Problème Les analyses produisent des résultats faussés à cause des doublons non supprimés. Contraintes Utiliser dropDuplicates() sur les colonnes email et telephone. Afficher le nombre de lignes avant et après déduplication. Livrable attendu Un script PySpark appliquant une déduplication ciblée et affichant les comptages comparatifs.

Prêt à évaluer ce talent ?

Accédez à l'interface de test complète pour soumettre votre architecture ou votre code.

Commencer le Défis