【Python】pandas.cut()函数的用法
pandas.cut() 函数是 Pandas 库中用于将连续数值数据转换为离散的区间或类别的一个重要函数。它可以将一组数据分割成指定数量的区间,并为每个数据点分配一个区间标签。
pandas.cut(x, bins, right=True, labels=None, retbins=False, precision=3, include_lowest=False)
import pandas as pd
import numpy as np
# 创建一个随机数数组
ages = np.random.randint(18, 65, 100)
# 将年龄分为5个区间
bins = [18, 25, 35, 45, 55, 65]
labels = ['18-25', '26-35', '36-45', '46-55', '56-65']
age_groups = pd.cut(ages, bins, labels=labels)
print(age_groups)
bins = [18, 30, 40, 65]
age_groups, bins = pd.cut(ages, bins, retbins=True)
age_groups = pd.cut(ages, bins, include_lowest=True)
right
和 include_lowest
参数来控制边界值的包含情况。labels
参数传入自定义的标签列表。pandas.cut() 函数是数据分析中非常常用的一个工具。它可以帮助我们对连续数值数据进行离散化,从而方便后续的分析和建模。通过灵活运用该函数,我们可以更好地理解数据,提取有价值的信息。
想了解更多关于 pandas.cut() 的用法,可以参考 Pandas 官方文档:https://pandas.pydata.org/docs/reference/api/pandas.cut.html
如果您有其他问题,欢迎随时提问!
您想了解 pandas.cut() 的哪些方面呢? 比如:
请随时提出您的问题!