📚 目录

  1. 数据排序概述
  2. 按值排序
  3. 按索引排序
  4. 排序多个列
  5. 数据聚合概述
  6. 使用 groupby() 聚合数据
  7. 聚合函数
  8. 参考资料
  9. 出站链接

1. 数据排序概述

数据排序是数据分析过程中常见的一步,Pandas 提供了灵活的排序功能,可以按列值或行索引对数据进行排序。排序有助于清理数据,发现数据中的模式和异常值。


2. 按值排序

sort_values():按值排序

可以按指定列的值进行排序,默认是升序排序。

df.sort_values(by='Age', ascending=True)  # 按照年龄升序排序

✅ 按多个列排序

df.sort_values(by=['City', 'Age'], ascending=[True, False])  # 按城市升序、年龄降序排序


3. 按索引排序

sort_index() 方法用于按索引排序,而不是按列值排序。

sort_index():按索引排序

df.sort_index(axis=0)  # 按行索引排序
df.sort_index(axis=1)  # 按列索引排序


4. 排序多个列

当你需要按多个列进行排序时,可以将多个列作为列表传递给 sort_values() 方法。

✅ 排序多个列示例:

df.sort_values(by=['City', 'Age'], ascending=[True, False])  # 先按城市升序,再按年龄降序


5. 数据聚合概述

数据聚合是通过某些特征来分组数据并执行统计操作的过程。Pandas 提供了强大的聚合功能,通常与 groupby() 方法结合使用,可以进行分组、汇总和变换。


6. 使用 groupby() 聚合数据

groupby() 方法是聚合数据的关键。通过指定分组的列,Pandas 会自动将数据分为多个组,并可以对每个组进行聚合操作。

✅ 按列进行分组并聚合:

grouped = df.groupby('City')

可以对分组后的数据执行聚合操作,例如 mean()sum() 等:

grouped['Age'].mean()  # 每个城市的平均年龄


7. 聚合函数

Pandas 提供了多种常用的聚合函数,可以在分组后的数据上使用。

✅ 常用聚合函数:

  • sum():求和
  • mean():求平均值
  • min() / max():最小值与最大值
  • count():计数
  • std():标准差

✅ 使用多个聚合函数:

grouped['Age'].agg(['mean', 'sum', 'count'])  # 求每个城市的年龄的均值、总和和计数


📖 参考资料

  • 《Python for Data Analysis》第四章:数据聚合与分组
  • Real Python – Pandas GroupBy: A Comprehensive Guide
  • Pandas 官方文档:groupby() 方法

🔗 出站链接