📚 目录
- CSV 文件简介
- 读取 CSV 文件
- 保存 DataFrame 为 CSV
- CSV 读写的高级参数
- 常见问题与解决方案
- 参考资料
- 出站链接
1. CSV 文件简介
CSV(Comma-Separated Values,逗号分隔值)是一种广泛使用的数据存储格式,常用于 Excel 导出、数据交换、日志记录等。
Pandas 提供了极其强大的 CSV 文件读写功能,可以快速将 CSV 转为结构化的 DataFrame 进行处理。
2. 读取 CSV 文件
使用 read_csv()
方法可以将 CSV 文件加载为 DataFrame:
import pandas as pd
df = pd.read_csv('data.csv')
print(df.head())
✅ 设置编码格式(防止中文乱码):
df = pd.read_csv('data.csv', encoding='utf-8') # 默认 utf-8
df = pd.read_csv('data.csv', encoding='gbk') # Windows 中文常用
✅ 指定列作为索引:
df = pd.read_csv('data.csv', index_col='id')
3. 保存 DataFrame 为 CSV
使用 to_csv()
方法将 DataFrame 导出为 CSV 文件:
df.to_csv('output.csv', index=False)
参数说明:
index=False
:不保存索引列encoding='utf-8'
:默认编码为 UTF-8sep=','
:字段分隔符,默认为逗号
4. CSV 读写的高级参数
参数 | 用途 |
---|---|
sep | 指定分隔符(如制表符 \t ) |
header | 指定列名所在的行 |
names | 手动设置列名 |
usecols | 只读取部分列 |
nrows | 只读取前几行 |
skiprows | 跳过前几行 |
na_values | 设置空值标记符 |
示例:
df = pd.read_csv('data.csv', usecols=['Name', 'Age'], nrows=100)
5. 常见问题与解决方案
问题 | 解决方案 |
---|---|
读取 CSV 显示乱码 | 检查文件编码并指定 encoding='gbk' 或 'utf-8-sig' |
多余列或空列 | 设置 index_col 或检查 sep 参数 |
数字列被读取为字符串 | 使用 dtype 强制类型转换 |
保存文件中文变成乱码 | 设置 encoding='utf-8-sig' 写入时加 BOM |
📖 参考资料
- 官方文档:https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html
- Python Cookbook:Pandas CSV 操作实践
- Real Python:https://realpython.com/python-csv/
发表回复