📚 目录

  1. CSV 文件简介
  2. 读取 CSV 文件
  3. 保存 DataFrame 为 CSV
  4. CSV 读写的高级参数
  5. 常见问题与解决方案
  6. 参考资料
  7. 出站链接

1. CSV 文件简介

CSV(Comma-Separated Values,逗号分隔值)是一种广泛使用的数据存储格式,常用于 Excel 导出、数据交换、日志记录等。

Pandas 提供了极其强大的 CSV 文件读写功能,可以快速将 CSV 转为结构化的 DataFrame 进行处理。


2. 读取 CSV 文件

使用 read_csv() 方法可以将 CSV 文件加载为 DataFrame:

import pandas as pd

df = pd.read_csv('data.csv')
print(df.head())

✅ 设置编码格式(防止中文乱码):

df = pd.read_csv('data.csv', encoding='utf-8')  # 默认 utf-8
df = pd.read_csv('data.csv', encoding='gbk')    # Windows 中文常用

✅ 指定列作为索引:

df = pd.read_csv('data.csv', index_col='id')


3. 保存 DataFrame 为 CSV

使用 to_csv() 方法将 DataFrame 导出为 CSV 文件:

df.to_csv('output.csv', index=False)

参数说明:

  • index=False:不保存索引列
  • encoding='utf-8':默认编码为 UTF-8
  • sep=',':字段分隔符,默认为逗号

4. CSV 读写的高级参数

参数用途
sep指定分隔符(如制表符 \t
header指定列名所在的行
names手动设置列名
usecols只读取部分列
nrows只读取前几行
skiprows跳过前几行
na_values设置空值标记符

示例:

df = pd.read_csv('data.csv', usecols=['Name', 'Age'], nrows=100)


5. 常见问题与解决方案

问题解决方案
读取 CSV 显示乱码检查文件编码并指定 encoding='gbk''utf-8-sig'
多余列或空列设置 index_col 或检查 sep 参数
数字列被读取为字符串使用 dtype 强制类型转换
保存文件中文变成乱码设置 encoding='utf-8-sig' 写入时加 BOM

📖 参考资料


🔗 出站链接