Suppression des doublons dans un DataFrame Spark

Type d'évaluation

Mise en situation réelle

Analyse

Intelligence Artificielle

Compétences ciblées

spark

pyspark

deduplication

dropduplicates

dataframe

Scénario Technique

Contexte Un fichier de contacts clients contient des lignes dupliquées issues de plusieurs sources d'import. Le Problème Les analyses produisent des résultats faussés à cause des doublons non supprimés. Contraintes Utiliser dropDuplicates() sur les colonnes email et telephone. Afficher le nombre de lignes avant et après déduplication. Livrable attendu Un script PySpark appliquant une déduplication ciblée et affichant les comptages comparatifs.

Prêt à évaluer ce talent ?

Accédez à l'interface de test complète pour soumettre votre architecture ou votre code.