【Python篇】详细学习 pandas 和 xlrd:从零开始

当前位置: 电视猫 > Python>
电视猫时间: 2024-09-08 10:08:46

  【Python篇】详细学习 pandas 和 xlrd:从零开始

【Python篇】详细学习 pandas 和 xlrd:从零开始

前言

在数据处理和分析中,Excel 文件是最常见的数据格式之一。Python 提供了强大的库 pandas,可以轻松地处理 Excel 文件中的数据。同时,我们还可以使用 xlrd 来读取 Excel 文件,尤其是较旧格式的 .xls 文件。

本篇博客将从零开始,带你学习如何使用 pandas 和 xlrd 来读取、处理、修改和保存 Excel 文件的数据。我们将详细讲解每一步,并附带代码示例和输出结果。  

一、环境准备和安装

1.1 安装 pandas 和 xlrd

打开命令行(Windows)或终端(macOS 和 Linux),输入以下命令来安装 pandas 和 xlrd:

Bash
pip install pandas xlrd

1.2 验证安装

安装完成后,你可以通过以下代码验证安装是否成功:

Python
import pandas as pd
import xlrd
print(pd.__version__) # 打印pandas 的版本
print(xlrd.__version__) # 打印xlrd 的版本

如果没有报错,并且成功打印出版本号,说明安装成功。  

二、 pandas 和 xlrd 的基础概念

2.1 什么是 pandas?

pandas 是一个用于数据分析和处理的强大Python 库。它的核心数据结构是 DataFrame 和 Series。

  • DataFrame: 一个二维表格,类似于电子表格或数据库中的表,具有行和列。
  • Series: 一个一维数组,类似于表格中的一列数据。

2.2 什么是 xlrd?

xlrd 是一个专门用于读取Excel 文件的库,尤其是 .xls 格式的文件。pandas 依赖 xlrd 来读取这些文件的数据。

三、使用 pandas 读取Excel 文件

3.1 读取Excel 文件的基础方法

我们首先学习如何使用 pandas 读取一个Excel 文件。假设我们有一个名为 example.xls 的Excel 文件,它包含以下数据:

Name Age City
Alice 25 New York
Bob 30 Los Angeles
Charlie 35 Chicago
 

代码示例:读取Excel 文件

Python
import pandas as pd
# 使用pandas 读取Excel 文件
df = pd.read_excel('example.xls', engine='xlrd')
# 显示前几行数据
print(df.head   ())

解释:

  • pd.read_excel:这是 pandas 提供的读取Excel 文件的函数。我们传入文件名 example.xlsengine='xlrd' 参数,xlrd 用于解析较旧格式的 .xls 文件。

3.2 指定 sheet_name

如果 Excel 文件有多个 sheet,可以使用 sheet_name 参数指定要读取的 sheet:

Python
df = pd.read_excel('example.xlsx', sheet_name='Sheet2')

3.3 指定读取的列

可以使用 usecols 参数指定要读取的列:

Python
df = pd.read_excel('example.xlsx', usecols=['Name', 'Age'])

四、使用 pandas 处理数据

读取完Excel文件后,我们可以使用 pandas 提供的丰富功能对数据进行处理,例如:

  • 查看数据: df.head(), df.tail(), df.shape, df.info()
  • 选择数据: df['Name'], df[0:3], df.loc[0], df.iloc[0]
  • 筛选数据: df[df['Age'] > 30]
  • 排序数据: df.sort_values('Age')
  • 分组聚合: df.groupby('City').mean()
  • ...

五、使用 pandas 写入Excel文件

Python
df.to_excel('output.xlsx', index=False)  # 将DataFrame写入新的Excel文件,不写入索引

六、使用 xlrd 读取Excel文件

Python
import xlrd
workbook = xlrd.open_workbook('example.xls')
sheet = workbook.sheet_by_index(0)
for row in range(sheet.nrows):
    for col in range(sheet.ncols):
        print(sheet.cell_value(row, col))

注意: xlrd 主要用于读取 .xls 格式的文件,对于 .xlsx 格式的文件,pandas 的 read_excel 函数更方便。

总结

本文详细介绍了如何使用 pandas 和 xlrd 来读取、处理和写入 Excel 文件。pandas 提供了强大的功能,可以轻松地处理各种数据分析任务。xlrd 则主要用于读取较旧格式的 Excel 文件。通过本文的学习,你应该能够熟练地使用这两个库来处理你的Excel数据。

后续学习方向:

  • 深入学习 pandas: DataFrame 和 Series 的更多操作,数据清洗、转换、可视化等。
  • Excel 文件的更多操作: 处理复杂 Excel 文件,如包含多个 sheet、合并单元格等。
  • 与其他库结合: pandas 与 NumPy、Matplotlib、Scikit-learn 等库的结合应用。

如果你有更多关于 pandas 和 xlrd 的问题,欢迎留言!

[温馨提示]:本文仅为入门介绍,pandas 和 xlrd 的功能远不止于此。建议您查阅官方文档,并结合实际项目进行练习,以更深入地掌握这两个库。

[官方文档]

[拓展阅读]

[关键词]:pandas, xlrd, Excel, Python, 数据分析, 数据处理

    最新电视剧
    热门电视剧
    影视资讯
    最新剧情排行榜
    最新电视剧剧情