Pandas 数据帧duplicated()方法

Pandas 数据帧`duplicated()`方法

原文：https://www.studytonight.com/pandas/pandas-dataframe-duplicated-method

在本教程中，我们将学习 PandasDataFrame.duplicated()方法。它返回表示重复行的布尔序列。我们可以考虑某些列，但它是可选的。它返回每个重复行的布尔序列。

下图显示了DataFrame.duplicated()方法的语法。

句法

DataFrame.duplicated(subset=None, keep='first')

因素

子集:列标签或标签序列，可选

仅考虑用于识别重复项的特定列，默认情况下使用所有列。

keep: {'first '，' last '，False}，默认为' first '

确定要标记哪些副本(如果有)。

first:除第一次出现外，将重复标记为True。
last:除最后一次出现外，将重复标记为True。
假:将所有重复标记为True。

示例 1:使用`DataFrame.duplicated()`方法查找重复的列

下面的示例显示了默认情况下，对于数据帧中的每组重复值，第一个匹配项设置在False上，所有其他匹配项设置在True上。

import pandas as pd
df = pd.DataFrame({'Name': ['Navya','Vindya', 'Navya', 'Vindya','Sinchana','Sinchana'],'Skills': ['Python','Java','Python','Java','Java','Java']})
print("-----------DataFrame--------")
print(df)
print("------Finding duplicates rows-------")
print(df.duplicated())

一旦我们运行该程序，我们将获得以下输出。

DataFrame - 名称技巧 0 纳维雅 Python 1 Vindya Java 2 纳维雅 Python 3 Vindya Java 4 Sinchana Java 5 Sinchana Java -查找重复行- 0 False 1 False 2 True 3 True 4 False 5 True dtype:bool

示例 2:使用`DataFrame.duplicated()`方法查找重复的列

下面的例子显示了通过使用‘last’，每组重复值的最后一次出现被设置在False上，所有其他的都被设置在True上。

import pandas as pd
df = pd.DataFrame({'Name': ['Navya','Vindya', 'Navya', 'Vindya','Sinchana','Sinchana'],'Skills': ['Python','Java','Python','Java','Java','Java']})
print("-----------DataFrame--------")
print(df)
print("------Finding duplicates rows-------")
print(df.duplicated(keep='last'))

一旦我们运行该程序，我们将获得以下输出。

DataFrame - 名称技巧 0 纳维雅 Python 1 Vindya Java 2 纳维雅 Python 3 Vindya Java 4 Sinchana Java 5 Sinchana Java -查找重复行- 0 True 1 True 2 False 3 False 4 True 5 False dtype:bool

示例 3:使用`DataFrame.duplicated()`方法查找重复的列

下面的例子显示了通过在False上设置keep，所有的副本都是True。

import pandas as pd
df = pd.DataFrame({'Name': ['Navya','Vindya', 'Navya', 'Vindya','Sinchana','Sinchana'],'Skills': ['Python','Java','Python','Java','Java','Java']})
print("-----------DataFrame--------")
print(df)
print("------Finding duplicates rows-------")
print(df.duplicated(keep=False))

一旦我们运行该程序，我们将获得以下输出。

DataFrame - 名称技巧 0 纳维雅 Python 1 Vindya Java 2 纳维雅 Python 3 Vindya Java 4 Sinchana Java 5 Sinchana Java -查找重复行- 0 True 1 True 2 True 3 True 4 True 5 True dtype:bool

示例 4:使用`DataFrame.duplicated()`方法查找重复的列

以下示例显示了如何使用subset方法在特定列中查找重复项。

import pandas as pd
df = pd.DataFrame({'Name': ['Navya','Vindya', 'Navya', 'Vindya','Sinchana','Sinchana'],'Skills': ['Python','Java','Python','Java','Java','Java']})
print("-----------DataFrame--------")
print(df)
print("------Finding duplicates rows-------")
print(df.duplicated(subset=['Skills']))

一旦我们运行该程序，我们将获得以下输出。

DataFrame - 名称技巧 0 纳维雅 Python 1 Vindya Java 2 纳维雅 Python 3 Vindya Java 4 Sinchana Java 5 Sinchana Java -查找重复行- 0 False 1 False 2 True 3 True 4 True 5 True dtype:bool

结论:

在本教程中，我们学习了 PandasDataFrame.duplicated()方法。我们学习了语法、参数，并通过在数据帧上应用这种方法，我们解决了示例并理解了DataFrame.duplicated()方法。