Tag: data-cleaning
Le nettoyage des données est le processus d’enlever ou de réparer les erreurs, et la normalisation des données utilisées dans les programmes informatiques. Par exemple, les valeurs aberrantes peuvent être enlevés, disparus, les échantillons peuvent être interpolées, des valeurs non valides peut être marqué comme non disponible, et synonyme de valeurs peuvent être fusionnées.
Une approche pour le nettoyage des données est le propre de données » cadre de Wickham, http://vita.had.co.nz/papers/tidy-data.pdf, ce qui signifie que chaque ligne est une observation et chaque colonne représente une variable.