📚 目录
- Pandas 常用函数概述
- 聚合函数
- 排序与排名
- 数据统计与分析
- 数据转换与重塑
- 时间序列操作
- 参考资料
- 出站链接
1. Pandas 常用函数概述
Pandas 提供了丰富的函数库,简化了数据操作和处理。常用的 Pandas 函数包括数据聚合、排序、统计分析等,它们能帮助快速分析和转换数据。
2. 聚合函数
Pandas 中的聚合函数通常应用于 DataFrame 或 Series,以获取数据的统计汇总信息。
✅ sum()
:求和
df['Age'].sum() # 计算年龄列的总和
✅ mean()
:均值
df['Age'].mean() # 计算年龄列的平均值
✅ min()
/ max()
:最小值与最大值
df['Age'].min() # 最小年龄
df['Age'].max() # 最大年龄
✅ count()
:计数
df['Age'].count() # 计数非缺失的年龄数据
✅ std()
:标准差
df['Age'].std() # 计算年龄列的标准差
3. 排序与排名
Pandas 提供了便捷的排序和排名功能,常用于数据分析时的排序与排名处理。
✅ sort_values()
:排序
df.sort_values(by='Age') # 按照年龄升序排序
✅ rank()
:排名
df['Age_rank'] = df['Age'].rank() # 为年龄列添加排名
✅ sort_index()
:按索引排序
df.sort_index(axis=1) # 按列索引排序
4. 数据统计与分析
Pandas 还提供了大量的统计分析函数,帮助深入分析数据。
✅ describe()
:描述性统计
df.describe() # 获取数值型列的描述性统计数据
✅ value_counts()
:频率计数
df['Age'].value_counts() # 统计年龄列中各个值的频率
✅ crosstab()
:交叉表
pd.crosstab(df['Age'], df['City']) # 生成年龄与城市的交叉表
5. 数据转换与重塑
Pandas 提供了丰富的数据转换与重塑功能,帮助进行数据的结构调整。
✅ pivot()
:数据透视
df.pivot(index='Date', columns='City', values='Temperature') # 透视表
✅ melt()
:数据反透视
df.melt(id_vars=['Date'], value_vars=['City', 'Temperature'])
6. 时间序列操作
时间序列是 Pandas 中的重要数据结构,提供了许多用于处理时间序列数据的函数。
✅ to_datetime()
:转换为时间戳
df['Date'] = pd.to_datetime(df['Date']) # 转换为日期格式
✅ resample()
:重采样
df.resample('M').mean() # 按月重采样并计算均值
✅ shift()
:位移操作
df['prev_value'] = df['Value'].shift(1) # 获取前一个时间点的值
📖 参考资料
- 《Python for Data Analysis》:数据处理与聚合
- Real Python – Pandas Functions: A Guide to Working with Functions in Pandas
- Pandas 官方文档:Pandas Functions and Operations
发表回复