Pandas 数据帧describe()方法

原文:https://www.studytonight.com/pandas/pandas-dataframe-describe-method

在本教程中,我们将学习 PandasDataFrame.describe()T4 法。它生成描述性统计数据,包括数据集分布的中心趋势、离差和形状,不包括NaN值。

  • 对于通过DataFrame提供的混合数据类型,默认情况下只返回对numeric列的分析。
  • 对于数值数据,结果的指数将包括countmeanstdminmax以及较低的、50和较高的百分位数。
  • 对于对象数据(例如字符串或时间戳),结果的索引将包括countuniquetopfreqtop是最常见的价值观。

下图显示了DataFrame.describe()方法的语法。

句法

DataFrame.describe(percentiles=None, include=None, exclude=None, datetime_is_numeric=False)

示例 1:使用DataFrame.describe()方法描述DataFrame

以下示例显示了使用DataFrame.describe()方法描述DataFrame 。默认情况下,只返回numeric字段。

import pandas as pd
df= pd.DataFrame([['Abhishek',100,'Science',90], ['Anurag',101,'Science',85],['Chetan',103,'Maths',75]], columns=['Name', 'Roll No', 'Subject', 'Marks'])
print(df.describe())

一旦我们运行该程序,我们将获得以下输出。

滚动无标记 计数 3.000000 3.000000 平均值 101.333333 83.333333】标准值 1.527525 7.637626 最小值 100.000000 75.000000 25% 100.500000 80.00000 50% 101

示例 2:使用DataFrame.describe()方法描述DataFrame的所有列

以下示例显示了使用DataFrame.describe()方法描述DataFrame的所有列,而不考虑数据类型。

import pandas as pd
df= pd.DataFrame([['Abhishek',100,'Science',90], ['Anurag',101,'Science',85],['Chetan',103,'Maths',75]], columns=['Name', 'Roll No', 'Subject', 'Marks'])
print(df.describe(include='all'))

一旦我们运行该程序,我们将获得以下输出。

名称卷无主题标记 计数 3 3.0000000 3.00000 独有 3 NAn 2 NAn top Abhishek NAn Science NAn freq 1 NAn 2 NAn 均值 NAn 101.3333333 NAn 83.333333 STD NAn 1.527525 NAn 7.637626 min NAn 100.000000000075

示例 3:使用DataFrame.describe()方法描述DataFrame的特定列

下面的示例显示了通过将列作为属性访问来描述来自DataFrame的列。

import pandas as pd
df= pd.DataFrame([['Abhishek',100,'Science',90], ['Anurag',101,'Science',85],['Chetan',103,'Maths',75]], columns=['Name', 'Roll No', 'Subject', 'Marks'])
print(df.Marks.describe())

一旦我们运行该程序,我们将获得以下输出。

计数 3.000000 平均值 83.333333 标准 7.637626 最小值 75.000000 25% 80.000000 50% 85.000000 75% 87.500000 最大值 90.000000 名称:Marks,dtype: float64

示例 4:使用DataFrame.describe()方法描述DataFrame的特定列

下面的例子展示了如何使用带有exclude=np.numberDataFrame.describe()方法来描述一个不包含数值列的DataFrame

import pandas as pd
df= pd.DataFrame([['Abhishek',100,'Science',90], ['Anurag',101,'Science',85],['Chetan',103,'Maths',75]], columns=['Name', 'Roll No', 'Subject', 'Marks'])
print(df.describe(exclude=np.number))

一旦我们运行该程序,我们将获得以下输出。

名称主题 计数 3 3 独特的 3 2 顶级阿布舍克科学 频率 1 2

示例 5:使用由None值组成的DataFrame.describe()方法描述DataFrame

以下示例显示了DataFrame.describe()方法如何描述由无值组成的数据帧。

import pandas as pd
df= pd.DataFrame([['Abhishek',101,'Science',None], ['Anurag',None,'Science',85],['Chetan',None,'Maths',75]], columns=['Name', 'Roll No', 'Subject', 'Marks'])
print(df.describe())

一旦我们运行该程序,我们将获得以下输出。

滚动无标记 计数 1.0 2.000000 平均值 101.0 80.000000 标准 NaN 7.071068 最小值 101.0 75.000000 25% 101.0 77.500000 50% 101.0 80.00000 75% 101.0 82.5000

结论

在本教程中,我们学习了 PandasDataFrame.describe()方法。我们学习了语法、参数,并通过在具有不同参数的数据帧上应用该方法来解决示例,并理解了该方法。