【Python篇】详细学习 pandas 和 xlrd:从零开始
在数据处理和分析中,Excel 文件是最常见的数据格式之一。Python 提供了强大的库 pandas,可以轻松地处理 Excel 文件中的数据。同时,我们还可以使用 xlrd 来读取 Excel 文件,尤其是较旧格式的 .xls 文件。
本篇博客将从零开始,带你学习如何使用 pandas 和 xlrd 来读取、处理、修改和保存 Excel 文件的数据。我们将详细讲解每一步,并附带代码示例和输出结果。
打开命令行(Windows)或终端(macOS 和 Linux),输入以下命令来安装 pandas 和 xlrd:
Bash
pip install pandas xlrd
安装完成后,你可以通过以下代码验证安装是否成功:
Python
import pandas as pd
import xlrd
print(pd.__version__) # 打印pandas 的版本
print(xlrd.__version__) # 打印xlrd 的版本
如果没有报错,并且成功打印出版本号,说明安装成功。
pandas 是一个用于数据分析和处理的强大Python 库。它的核心数据结构是 DataFrame 和 Series。
xlrd 是一个专门用于读取Excel 文件的库,尤其是 .xls 格式的文件。pandas 依赖 xlrd 来读取这些文件的数据。
我们首先学习如何使用 pandas 读取一个Excel 文件。假设我们有一个名为 example.xls
的Excel 文件,它包含以下数据:
Name | Age | City |
---|---|---|
Alice | 25 | New York |
Bob | 30 | Los Angeles |
Charlie | 35 | Chicago |
代码示例:读取Excel 文件
Python
import pandas as pd
# 使用pandas 读取Excel 文件
df = pd.read_excel('example.xls', engine='xlrd')
# 显示前几行数据
print(df.head ())
解释:
pd.read_excel
:这是 pandas 提供的读取Excel 文件的函数。我们传入文件名 example.xls
和 engine='xlrd'
参数,xlrd
用于解析较旧格式的 .xls 文件。如果 Excel 文件有多个 sheet,可以使用 sheet_name
参数指定要读取的 sheet:
df = pd.read_excel('example.xlsx', sheet_name='Sheet2')
可以使用 usecols
参数指定要读取的列:
df = pd.read_excel('example.xlsx', usecols=['Name', 'Age'])
读取完Excel文件后,我们可以使用 pandas 提供的丰富功能对数据进行处理,例如:
df.head()
, df.tail()
, df.shape
, df.info()
df['Name']
, df[0:3]
, df.loc[0]
, df.iloc[0]
df[df['Age'] > 30]
df.sort_values('Age')
df.groupby('City').mean()
df.to_excel('output.xlsx', index=False) # 将DataFrame写入新的Excel文件,不写入索引
import xlrd
workbook = xlrd.open_workbook('example.xls')
sheet = workbook.sheet_by_index(0)
for row in range(sheet.nrows):
for col in range(sheet.ncols):
print(sheet.cell_value(row, col))
注意: xlrd 主要用于读取 .xls 格式的文件,对于 .xlsx 格式的文件,pandas 的 read_excel
函数更方便。
本文详细介绍了如何使用 pandas 和 xlrd 来读取、处理和写入 Excel 文件。pandas 提供了强大的功能,可以轻松地处理各种数据分析任务。xlrd 则主要用于读取较旧格式的 Excel 文件。通过本文的学习,你应该能够熟练地使用这两个库来处理你的Excel数据。
后续学习方向:
如果你有更多关于 pandas 和 xlrd 的问题,欢迎留言!
[温馨提示]:本文仅为入门介绍,pandas 和 xlrd 的功能远不止于此。建议您查阅官方文档,并结合实际项目进行练习,以更深入地掌握这两个库。
[官方文档]:
[拓展阅读]:
[关键词]:pandas, xlrd, Excel, Python, 数据分析, 数据处理