Python如何读取csv文件_Python读取csv文件方法总结（读取.文件.方法.Python._Python...）

使用csv模块和pandas是Python读取CSV文件最常用的方法；csv适合基础逐行处理，pandas则擅长高效的数据分析与大规模操作，结合二者可应对绝大多数场景。

python如何读取csv文件_python读取csv文件方法总结

Python读取CSV文件，最常用且高效的方式莫过于使用内置的

csv

模块，它提供了基础而强大的解析能力，尤其适合处理结构相对简单或需要逐行处理的场景；而对于数据分析和大规模数据操作，

pandas

库则是不可或缺的利器，它将数据处理提升到了一个新的维度，让复杂的数据任务变得异常简洁。在我看来，掌握这两者，基本上就能应对Python中绝大多数CSV文件的读取需求了。解决方案

说实话，处理CSV文件在日常工作中是再常见不过的任务了。我们来聊聊Python里那些真正好用的方法。

1. 使用Python内置的

csv

模块：基础而强大

csv

模块是Python标准库的一部分，这意味着你无需安装任何额外的东西就能使用它。它非常适合处理那些结构规整，或者你需要对每一行数据进行细致控制的场景。

基本读取：

csv.reader

这是最直接的方式，它会返回一个迭代器，每次迭代得到一行数据，通常是一个列表。

import csv

# 假设我们有一个名为 'data.csv' 的文件
# 内容可能是：
# Name,Age,City
# Alice,30,New York
# Bob,24,London

try:
    with open('data.csv', 'r', encoding='utf-8') as f:
        reader = csv.reader(f)
        # 跳过标题行，如果你不想要的话
        header = next(reader)
        print(f"文件头: {header}")
        for row in reader:
            print(row)
except FileNotFoundError:
    print("data.csv 文件不存在，请确保文件在当前目录下。")
except Exception as e:
    print(f"读取文件时发生错误: {e}")

这里

encoding='utf-8'

非常关键，后面我们会详细聊到编码问题。如果你的CSV文件使用分号作为分隔符，可以这样指定：

reader = csv.reader(f, delimiter=';')

。

字典方式读取：

csv.DictReader

我个人更偏爱

DictReader

，因为它能将每一行数据直接映射成字典，以列名作为键。这样在访问数据时，你就不需要记住列的索引了，直接用列名访问，代码可读性会大大提高。

import csv

try:
    with open('data.csv', 'r', encoding='utf-8') as f:
        reader = csv.DictReader(f)
        for row in reader:
            # 假设CSV文件有'Name'和'Age'列
            print(f"姓名: {row['Name']}, 年龄: {row['Age']}")
except FileNotFoundError:
    print("data.csv 文件不存在。")
except KeyError as e:
    print(f"字典键错误，可能CSV文件缺少列名：{e}")
except Exception as e:
    print(f"读取文件时发生错误: {e}")

是不是感觉方便多了？当CSV文件没有标题行时，你可以通过

fieldnames

参数手动指定列名。

2. 使用

pandas

库：数据分析的利器

如果你的目标是数据分析、清洗、转换，或者处理的数据量较大，那么

pandas

绝对是你的首选。它构建在

NumPy

之上，提供了高性能的数据结构（主要是

DataFrame

），让数据处理变得异常高效和直观。

核心函数：

pd.read_csv()

pandas

的

read_csv()

函数功能异常强大，几乎可以应对各种复杂的CSV读取场景。

import pandas as pd

try:
    # 默认情况下，read_csv()会尝试识别分隔符，并假设第一行为标题
    df = pd.read_csv('data.csv', encoding='utf-8')
    print("使用pandas读取的数据框：")
    print(df.head()) # 打印前几行数据
    print("\n数据框信息：")
    df.info() # 查看数据类型和非空值数量
except FileNotFoundError:
    print("data.csv 文件不存在。")
except Exception as e:
    print(f"使用pandas读取文件时发生错误: {e}")

pd.read_csv()

的常用参数：

read_csv()

的强大之处在于它的各种参数，能让你精细控制读取过程：

```
sep
```
(或
```
delimiter
```
): 指定分隔符，比如
```
sep=';'
```
。
```
header
```
: 指定哪一行作为列名。
```
header=None
```
表示没有标题行，
```
header=0
```
（默认）表示第一行是标题。
```
names
```
: 当没有标题行时，手动指定列名列表。
```
index_col
```
: 指定哪一列作为DataFrame的索引。
```
dtype
```
: 明确指定某些列的数据类型，可以节省内存并避免类型推断错误。
```
encoding
```
: 指定文件编码，这是个大坑，我们后面会细说。
```
skiprows
```
: 跳过文件开头的指定行数。
```
nrows
```
: 只读取文件的前N行。
```
chunksize
```
: 对于超大文件，可以分块读取，避免一次性加载到内存。
```
parse_dates
```
: 尝试将某些列解析为日期时间类型。

一个综合示例：

import pandas as pd

# 假设有一个文件 'complex_data.csv'
# 前两行是注释，第三行是标题，分隔符是制表符，日期列需要解析
# # This is a comment
# # Another comment
# ID\tName\tBirthday\tValue
# 1\tAlice\t1990-01-15\t100.5
# 2\tBob\t1985-03-20\t200.0

try:
    df_complex = pd.read_csv('complex_data.csv',
                             sep='\t', # 指定制表符为分隔符
                             skiprows=[0, 1], # 跳过前两行注释
                             parse_dates=['Birthday'], # 将Birthday列解析为日期
                             encoding='utf-8')
    print("\n使用更多参数读取的数据框：")
    print(df_complex.head())
    print("\n解析后的数据类型：")
    print(df_complex.dtypes)
except FileNotFoundError:
    print("complex_data.csv 文件不存在。")
except Exception as e:
    print(f"读取复杂文件时发生错误: {e}")

Python读取CSV文件时，最让人头疼的编码问题该如何应对？

在我多年的数据处理经验里，编码问题绝对是新手甚至老手都会频繁踩坑的地方。你经常会看到

UnicodeDecodeError

这样的报错，让人抓狂。这通常意味着你告诉Python用A编码去解读一个实际是B编码的文件。

为什么会发生编码问题？简单来说，不同的操作系统、不同的文本编辑器，甚至不同的国家，在保存文本文件时可能会使用不同的字符编码标准。比如，Windows系统下中文环境默认可能是

gbk

或

gb2312

，而Linux或Mac系统，以及网络传输，则更倾向于

utf-8

。当Python尝试以错误的编码方式读取文件时，它就无法正确地将字节序列转换成可识别的字符，于是就报错了。

如何诊断和解决？

首选

utf-8

：经验告诉我，

utf-8

是目前最通用、兼容性最好的编码。所以，无论是使用

csv

模块还是

pandas

，我都会首先尝试

encoding='utf-8'

。

# csv 模块
with open('file.csv', 'r', encoding='utf-8') as f:
    # ...

# pandas
df = pd.read_csv('file.csv', encoding='utf-8')

尝试其他常见编码：

gbk

gb2312

latin-1

iso-8859-1

如果

utf-8

不行，尤其是处理来自国内Windows环境的文件，那么

gbk

或

gb2312

是很可能正确的选择。

latin-1

或

iso-8859-1

则是一种更宽松的编码，它能读取几乎所有字节，但对于非拉丁字符（如中文）可能会导致乱码，不过至少能保证文件能被打开，你再手动处理乱码列。

# 尝试 gbk
try:
    df = pd.read_csv('file.csv', encoding='gbk')
except UnicodeDecodeError:
    print("gbk 编码失败，尝试其他编码...")
    # 尝试 latin-1
    try:
        df = pd.read_csv('file.csv', encoding='latin-1')
    except Exception as e:
        print(f"所有尝试都失败了: {e}")

利用

chardet

库自动检测编码：当你实在不确定文件的编码时，

chardet

库可以派上用场。它会尝试猜测文件的编码。不过，请注意，

chardet

不是100%准确，尤其是在文件较小或内容不够多样时，但它能提供一个很好的起点。

import chardet
import pandas as pd

def detect_encoding(file_path, num_bytes=10000):
    """尝试检测文件的编码"""
    with open(file_path, 'rb') as f: # 以二进制模式读取
        raw_data = f.read(num_bytes) # 读取前N个字节
    result = chardet.detect(raw_data)
    return result['encoding']

file_path = 'unknown_encoding.csv'
detected_enc = detect_encoding(file_path)
print(f"检测到的编码是: {detected_enc}")

if detected_enc:
    try:
        df = pd.read_csv(file_path, encoding=detected_enc)
        print("成功以检测到的编码读取文件。")
    except Exception as e:
        print(f"使用检测到的编码 {detected_enc} 失败: {e}")
        # fallback to manual tries if detection fails
else:
    print("未能检测到编码，请手动尝试。")

这是一个很实用的技巧，能帮你省下不少猜测的时间。

```
errors
```
参数（慎用）：在
```
open()
```
函数或
```
pd.read_csv()
```
中，你可以使用
```
errors='ignore'
```
或
```
errors='replace'
```
来处理编码错误。
```
ignore
```
会忽略无法解码的字符，
```
replace
```
会用一个占位符替换它们。但这会丢失数据，通常只在数据质量要求不高或需要快速查看文件内容时使用。
```
# 忽略编码错误，但数据可能不完整或乱码
df = pd.read_csv('file.csv', encoding='utf-8', errors='ignore')
```
总的来说，处理编码问题需要耐心和一点点试错。从
```
utf-8
```
开始，不行就尝试
```
gbk
```
，实在不行再借助
```
chardet
```
，最后才考虑
```
latin-1
```
或忽略错误。

读取CSV后，如何快速对数据进行初步的清洗和预处理？

数据读取进来只是第一步，真正有价值的工作往往从数据清洗和预处理开始。

pandas

在这方面简直是神一样的存在，它提供了一整套高效且直观的工具。

查看数据概览：
```
df.info()
```
和
```
df.head()
```
/
```
df.tail()
```
这是我每次拿到新数据后的第一步。
```
df.info()
```
会告诉你每列的数据类型、非空值的数量以及内存占用，这对于了解数据质量至关重要。
```
df.head()
```
和
```
df.tail()
```
则能让你快速预览数据的前几行和后几行，有个直观的印象。
```
# 假设 df 已经是一个 DataFrame
print("数据框信息概览:")
df.info()
print("\n数据框前5行:")
print(df.head())
```

处理缺失值：

isnull()

dropna()

fillna()

缺失值是数据清洗的常客。

```
df.isnull().sum()
```
：统计每列的缺失值数量。
```
df.dropna()
```
：删除含有缺失值的行或列（
```
axis=1
```
）。
```
df.fillna(value)
```
：用指定的值（如均值、中位数、众数或特定字符串）填充缺失值。

# 检查缺失值
print("\n每列的缺失值数量:")
print(df.isnull().sum())

# 删除所有含有缺失值的行
df_cleaned = df.dropna()
print(f"\n删除缺失值后的行数: {len(df_cleaned)}")

# 用平均值填充某一列的缺失值
# 假设 'Age' 列有缺失值，且是数值类型
if 'Age' in df.columns and pd.api.types.is_numeric_dtype(df['Age']):
    df['Age'].fillna(df['Age'].mean(), inplace=True)
    print("\n'Age'列缺失值已用均值填充。")

处理重复值：

duplicated()

drop_duplicates()

重复行会干扰分析结果。

```
df.duplicated().sum()
```
：统计重复行的数量。
```
df.drop_duplicates()
```
：删除重复行。你可以指定
```
subset
```
参数来基于特定列判断重复。

print(f"\n重复行数量: {df.duplicated().sum()}")
df_unique = df.drop_duplicates()
print(f"删除重复行后的行数: {len(df_unique)}")

列名标准化：

rename()

有时候列名可能不规范，包含特殊字符或空格。统一列名是一个好习惯。

# 假设有一列名为 'User Name'，我们想改成 'UserName'
if 'User Name' in df.columns:
    df.rename(columns={'User Name': 'UserName'}, inplace=True)
    print("\n列名 'User Name' 已重命名为 'UserName'。")

数据类型转换：
```
astype()
```
/
```
pd.to_datetime()
```
/
```
pd.to_numeric()
```
```
df.info()
```
中看到的数据类型可能不总是你想要的。比如，数字列被读成了字符串，或者日期被当成了对象。
- ```
df['column'].astype(int)
```
  ：将列转换为整数。