Apache Spark
Fondamental
Suppression des doublons dans un DataFrame Spark
Type d'évaluation
Mise en situation réelle
Analyse
Intelligence Artificielle
Compétences ciblées
spark
pyspark
deduplication
dropduplicates
dataframe
Scénario Technique
Contexte Un fichier de contacts clients contient des lignes dupliquées issues de plusieurs sources d'import. Le Problème Les analyses produisent des résultats faussés à cause des doublons non supprimés. Contraintes Utiliser dropDuplicates() sur les colonnes email et telephone. Afficher le nombre de lignes avant et après déduplication. Livrable attendu Un script PySpark appliquant une déduplication ciblée et affichant les comptages comparatifs.
Prêt à évaluer ce talent ?
Accédez à l'interface de test complète pour soumettre votre architecture ou votre code.