Vérifier les valeurs en double dans dataframe colonne

Est-il un moyen de vérifier si un dataframe colonne des valeurs dupliquées sans abandon de lignes? J'ai une fonction qui permet de supprimer les doublons de lignes, cependant, je ne le veux si il ya effectivement des doublons dans une colonne spécifique.

Actuellement je compare le nombre de valeurs uniques dans la colonne du nombre de lignes: si il y a moins de valeurs uniques que les lignes puis il y a des doublons et le code s'exécute.

 if len(df['Student'].unique()) < len(df.index):
    # Code to remove duplicates based on Date column runs

Est-il plus facile ou plus efficace moyen de vérifier si des valeurs dans une colonne spécifique, en utilisant les pandas?

Une partie de l'échantillon de données, je travaille avec (seulement deux colonnes illustré). Si des doublons sont trouvés, puis une autre fonction qui identifie la ligne pour garder la ligne avec la plus ancienne date):

    Student Date
0   Joe     December 2017
1   James   January 2018
2   Bob     April 2018
3   Joe     December 2017
4   Jack    February 2018
5   Jack    March 2018

trier vos df par date puis df.drop_duplicates('student')
Oui, mais peut-être convertir datetime et trier après. Vérification rapide serait: any(df['Student'].duplicated())

InformationsquelleAutor Jeff Mitchell | 2018-05-08

13

Question principale

Est-il un double de la valeur dans une colonne, Vrai/Faux?
```
╔═════════╦═══════════════╗
║ Student ║ Date          ║
╠═════════╬═══════════════╣
║ Joe     ║ December 2017 ║
╠═════════╬═══════════════╣
║ Bob     ║ April 2018    ║
╠═════════╬═══════════════╣
║ Joe     ║ December 2018 ║
╚═════════╩═══════════════╝
```
En supposant que ci-dessus dataframe (df), on peut faire une vérification rapide si dupliqué dans le Student col par:
```
boolean = any(df['Student'].duplicated()) # True
```
Plus de lectures et de références

Au-dessus de nous à l'aide de l'une des Pandas méthodes de la Série. Les pandas DataFrame a plusieurs utile méthodes, dont deux sont:
1. drop_duplicates(auto[, sous-ensemble, garder, inplace]) - Retour DataFrame avec des doublons de lignes supprimées, éventuellement considérer seulement certaines colonnes.
2. dupliqué(auto[, sous-ensemble, gardez]) - Return boolean Série dénotant des lignes en double, éventuellement considérer seulement certaines colonnes.
Ces méthodes peuvent être appliquées sur le DataFrame dans son ensemble, et pas seulement une Série (colonne) comme ci-dessus. L'équivalent serait:
```
boolean = any(df.duplicated(subset=['Student'])) # True
# We were expecting True, as Joe can be seen twice.
```
Cependant, si nous nous intéressons dans le cadre entier, nous pourrions aller de l'avant et de le faire:
```
boolean = any(df.duplicated()) # False
boolean = any(df.duplicated(subset=['Student','Date'])) # False
# We were expecting False here - no duplicates row-wise 
# ie. Joe Dec 2017, Joe Dec 2018
```
Et un dernier conseil utile. À l'aide de la keep paramater nous pouvons normalement sauter quelques lignes accéder directement à ce dont nous avons besoin:

garder : {‘premier’, ‘dernier’, False}, par défaut ‘d'abord’
- première : pour supprimer les doublons à l'exception de la première occurrence.
- dernier : pour supprimer les doublons à l'exception de la dernière occurrence.
- Faux : pour supprimer tous les doublons.
Exemple de jouer avec
```
import pandas as pd
import io

data = '''\
Student,Date
Joe,December 2017
Bob,April 2018
Joe,December 2018'''

df = pd.read_csv(io.StringIO(data), sep=',')

# Approach 1: Simple True/False
boolean = any(df.duplicated(subset=['Student']))
print(boolean, end='\n\n') # True

# Approach 2: First store boolean array, check then remove
duplicate_in_student = df.duplicated(subset=['Student'])
if any(duplicate_in_student):
    print(df.loc[~duplicate_in_student], end='\n\n')

# Approach 3: Use drop_duplicates method
df.drop_duplicates(subset=['Student'], inplace=True)
print(df)
```
Retourne
```
True

  Student           Date
0     Joe  December 2017
1     Bob     April 2018

  Student           Date
0     Joe  December 2017
1     Bob     April 2018
```
- Merci, une(df['Étudiant'].dupliqué (en)) est ce que je recherchais.
- D'ailleurs, je n'ai pas pu obtenir la date de conversion de travailler (ma fonction existante a fait un travail tout de même). J'ai obtenu l'erreur AttributeError: 'DataFrame" objet n'a pas d'attribut "Date" pour la ligne df['Date'] = pd.to_datetime(df.Date)
- est égal à df['Date']. Il est sensible à la casse. Êtes-vous sûr de vos colonnes est appelée Date? Pourrait essayer df['Date'] trop
- merci, en utilisant df['Date'] il fixe.
InformationsquelleAutor Anton vBR

Vous devez vous connecter pour publier un commentaire.

Question principale

Plus de lectures et de références

Exemple de jouer avec