📚 目录
- 数据排序概述
- 按值排序
- 按索引排序
- 排序多个列
- 数据聚合概述
- 使用
groupby()
聚合数据 - 聚合函数
- 参考资料
- 出站链接
1. 数据排序概述
数据排序是数据分析过程中常见的一步,Pandas 提供了灵活的排序功能,可以按列值或行索引对数据进行排序。排序有助于清理数据,发现数据中的模式和异常值。
2. 按值排序
✅ sort_values()
:按值排序
可以按指定列的值进行排序,默认是升序排序。
df.sort_values(by='Age', ascending=True) # 按照年龄升序排序
✅ 按多个列排序
df.sort_values(by=['City', 'Age'], ascending=[True, False]) # 按城市升序、年龄降序排序
3. 按索引排序
sort_index()
方法用于按索引排序,而不是按列值排序。
✅ sort_index()
:按索引排序
df.sort_index(axis=0) # 按行索引排序
df.sort_index(axis=1) # 按列索引排序
4. 排序多个列
当你需要按多个列进行排序时,可以将多个列作为列表传递给 sort_values()
方法。
✅ 排序多个列示例:
df.sort_values(by=['City', 'Age'], ascending=[True, False]) # 先按城市升序,再按年龄降序
5. 数据聚合概述
数据聚合是通过某些特征来分组数据并执行统计操作的过程。Pandas 提供了强大的聚合功能,通常与 groupby()
方法结合使用,可以进行分组、汇总和变换。
6. 使用 groupby()
聚合数据
groupby()
方法是聚合数据的关键。通过指定分组的列,Pandas 会自动将数据分为多个组,并可以对每个组进行聚合操作。
✅ 按列进行分组并聚合:
grouped = df.groupby('City')
可以对分组后的数据执行聚合操作,例如 mean()
、sum()
等:
grouped['Age'].mean() # 每个城市的平均年龄
7. 聚合函数
Pandas 提供了多种常用的聚合函数,可以在分组后的数据上使用。
✅ 常用聚合函数:
sum()
:求和mean()
:求平均值min()
/max()
:最小值与最大值count()
:计数std()
:标准差
✅ 使用多个聚合函数:
grouped['Age'].agg(['mean', 'sum', 'count']) # 求每个城市的年龄的均值、总和和计数
📖 参考资料
- 《Python for Data Analysis》第四章:数据聚合与分组
- Real Python – Pandas GroupBy: A Comprehensive Guide
- Pandas 官方文档:groupby() 方法
发表回复