Pandas 数据帧duplicated()
方法
原文:https://www.studytonight.com/pandas/pandas-dataframe-duplicated-method
在本教程中,我们将学习 PandasDataFrame.duplicated()
方法。它返回表示重复行的布尔序列。我们可以考虑某些列,但它是可选的。它返回每个重复行的布尔序列。
下图显示了DataFrame.duplicated()
方法的语法。
句法
DataFrame.duplicated(subset=None, keep='first')
因素
子集:列标签或标签序列,可选
仅考虑用于识别重复项的特定列,默认情况下使用所有列。
keep: {'first ',' last ',False},默认为' first '
确定要标记哪些副本(如果有)。
first
:除第一次出现外,将重复标记为True
。last
:除最后一次出现外,将重复标记为True
。假:将所有重复标记为
True
。
示例 1:使用DataFrame.duplicated()
方法查找重复的列
下面的示例显示了默认情况下,对于数据帧中的每组重复值,第一个匹配项设置在False
上,所有其他匹配项设置在True
上。
import pandas as pd
df = pd.DataFrame({'Name': ['Navya','Vindya', 'Navya', 'Vindya','Sinchana','Sinchana'],'Skills': ['Python','Java','Python','Java','Java','Java']})
print("-----------DataFrame--------")
print(df)
print("------Finding duplicates rows-------")
print(df.duplicated())
一旦我们运行该程序,我们将获得以下输出。
- DataFrame - 名称技巧 0 纳维雅 Python 1 Vindya Java 2 纳维雅 Python 3 Vindya Java 4 Sinchana Java 5 Sinchana Java -查找重复行- 0 False 1 False 2 True 3 True 4 False 5 True dtype:bool
示例 2:使用DataFrame.duplicated()
方法查找重复的列
下面的例子显示了通过使用‘last’
,每组重复值的最后一次出现被设置在False
上,所有其他的都被设置在True
上。
import pandas as pd
df = pd.DataFrame({'Name': ['Navya','Vindya', 'Navya', 'Vindya','Sinchana','Sinchana'],'Skills': ['Python','Java','Python','Java','Java','Java']})
print("-----------DataFrame--------")
print(df)
print("------Finding duplicates rows-------")
print(df.duplicated(keep='last'))
一旦我们运行该程序,我们将获得以下输出。
- DataFrame - 名称技巧 0 纳维雅 Python 1 Vindya Java 2 纳维雅 Python 3 Vindya Java 4 Sinchana Java 5 Sinchana Java -查找重复行- 0 True 1 True 2 False 3 False 4 True 5 False dtype:bool
示例 3:使用DataFrame.duplicated()
方法查找重复的列
下面的例子显示了通过在False
上设置keep
,所有的副本都是True
。
import pandas as pd
df = pd.DataFrame({'Name': ['Navya','Vindya', 'Navya', 'Vindya','Sinchana','Sinchana'],'Skills': ['Python','Java','Python','Java','Java','Java']})
print("-----------DataFrame--------")
print(df)
print("------Finding duplicates rows-------")
print(df.duplicated(keep=False))
一旦我们运行该程序,我们将获得以下输出。
- DataFrame - 名称技巧 0 纳维雅 Python 1 Vindya Java 2 纳维雅 Python 3 Vindya Java 4 Sinchana Java 5 Sinchana Java -查找重复行- 0 True 1 True 2 True 3 True 4 True 5 True dtype:bool
示例 4:使用DataFrame.duplicated()
方法查找重复的列
以下示例显示了如何使用subset
方法在特定列中查找重复项。
import pandas as pd
df = pd.DataFrame({'Name': ['Navya','Vindya', 'Navya', 'Vindya','Sinchana','Sinchana'],'Skills': ['Python','Java','Python','Java','Java','Java']})
print("-----------DataFrame--------")
print(df)
print("------Finding duplicates rows-------")
print(df.duplicated(subset=['Skills']))
一旦我们运行该程序,我们将获得以下输出。
- DataFrame - 名称技巧 0 纳维雅 Python 1 Vindya Java 2 纳维雅 Python 3 Vindya Java 4 Sinchana Java 5 Sinchana Java -查找重复行- 0 False 1 False 2 True 3 True 4 True 5 True dtype:bool
结论:
在本教程中,我们学习了 PandasDataFrame.duplicated()
方法。我们学习了语法、参数,并通过在数据帧上应用这种方法,我们解决了示例并理解了DataFrame.duplicated()
方法。