📚 目录

  1. Pandas 常用函数概述
  2. 聚合函数
  3. 排序与排名
  4. 数据统计与分析
  5. 数据转换与重塑
  6. 时间序列操作
  7. 参考资料
  8. 出站链接

1. Pandas 常用函数概述

Pandas 提供了丰富的函数库,简化了数据操作和处理。常用的 Pandas 函数包括数据聚合、排序、统计分析等,它们能帮助快速分析和转换数据。


2. 聚合函数

Pandas 中的聚合函数通常应用于 DataFrame 或 Series,以获取数据的统计汇总信息。

sum():求和

df['Age'].sum()  # 计算年龄列的总和

mean():均值

df['Age'].mean()  # 计算年龄列的平均值

min() / max():最小值与最大值

df['Age'].min()  # 最小年龄
df['Age'].max()  # 最大年龄

count():计数

df['Age'].count()  # 计数非缺失的年龄数据

std():标准差

df['Age'].std()  # 计算年龄列的标准差


3. 排序与排名

Pandas 提供了便捷的排序和排名功能,常用于数据分析时的排序与排名处理。

sort_values():排序

df.sort_values(by='Age')  # 按照年龄升序排序

rank():排名

df['Age_rank'] = df['Age'].rank()  # 为年龄列添加排名

sort_index():按索引排序

df.sort_index(axis=1)  # 按列索引排序


4. 数据统计与分析

Pandas 还提供了大量的统计分析函数,帮助深入分析数据。

describe():描述性统计

df.describe()  # 获取数值型列的描述性统计数据

value_counts():频率计数

df['Age'].value_counts()  # 统计年龄列中各个值的频率

crosstab():交叉表

pd.crosstab(df['Age'], df['City'])  # 生成年龄与城市的交叉表


5. 数据转换与重塑

Pandas 提供了丰富的数据转换与重塑功能,帮助进行数据的结构调整。

pivot():数据透视

df.pivot(index='Date', columns='City', values='Temperature')  # 透视表

melt():数据反透视

df.melt(id_vars=['Date'], value_vars=['City', 'Temperature'])


6. 时间序列操作

时间序列是 Pandas 中的重要数据结构,提供了许多用于处理时间序列数据的函数。

to_datetime():转换为时间戳

df['Date'] = pd.to_datetime(df['Date'])  # 转换为日期格式

resample():重采样

df.resample('M').mean()  # 按月重采样并计算均值

shift():位移操作

df['prev_value'] = df['Value'].shift(1)  # 获取前一个时间点的值


📖 参考资料

  • 《Python for Data Analysis》:数据处理与聚合
  • Real Python – Pandas Functions: A Guide to Working with Functions in Pandas
  • Pandas 官方文档:Pandas Functions and Operations

🔗 出站链接