Python如何读取csv文件_Python读取csv文件方法总结(读取.文件.方法.Python._Python...)

wufei123 发布于 2025-08-29 阅读(6)
使用csv模块和pandas是Python读取CSV文件最常用的方法;csv适合基础逐行处理,pandas则擅长高效的数据分析与大规模操作,结合二者可应对绝大多数场景。

python如何读取csv文件_python读取csv文件方法总结

Python读取CSV文件,最常用且高效的方式莫过于使用内置的

csv
模块,它提供了基础而强大的解析能力,尤其适合处理结构相对简单或需要逐行处理的场景;而对于数据分析和大规模数据操作,
pandas
库则是不可或缺的利器,它将数据处理提升到了一个新的维度,让复杂的数据任务变得异常简洁。在我看来,掌握这两者,基本上就能应对Python中绝大多数CSV文件的读取需求了。 解决方案

说实话,处理CSV文件在日常工作中是再常见不过的任务了。我们来聊聊Python里那些真正好用的方法。

1. 使用Python内置的

csv
模块:基础而强大

csv
模块是Python标准库的一部分,这意味着你无需安装任何额外的东西就能使用它。它非常适合处理那些结构规整,或者你需要对每一行数据进行细致控制的场景。
  • 基本读取:

    csv.reader
    这是最直接的方式,它会返回一个迭代器,每次迭代得到一行数据,通常是一个列表。
    import csv
    
    # 假设我们有一个名为 'data.csv' 的文件
    # 内容可能是:
    # Name,Age,City
    # Alice,30,New York
    # Bob,24,London
    
    try:
        with open('data.csv', 'r', encoding='utf-8') as f:
            reader = csv.reader(f)
            # 跳过标题行,如果你不想要的话
            header = next(reader)
            print(f"文件头: {header}")
            for row in reader:
                print(row)
    except FileNotFoundError:
        print("data.csv 文件不存在,请确保文件在当前目录下。")
    except Exception as e:
        print(f"读取文件时发生错误: {e}")

    这里

    encoding='utf-8'
    非常关键,后面我们会详细聊到编码问题。如果你的CSV文件使用分号作为分隔符,可以这样指定:
    reader = csv.reader(f, delimiter=';')
  • 字典方式读取:

    csv.DictReader
    我个人更偏爱
    DictReader
    ,因为它能将每一行数据直接映射成字典,以列名作为键。这样在访问数据时,你就不需要记住列的索引了,直接用列名访问,代码可读性会大大提高。
    import csv
    
    try:
        with open('data.csv', 'r', encoding='utf-8') as f:
            reader = csv.DictReader(f)
            for row in reader:
                # 假设CSV文件有'Name'和'Age'列
                print(f"姓名: {row['Name']}, 年龄: {row['Age']}")
    except FileNotFoundError:
        print("data.csv 文件不存在。")
    except KeyError as e:
        print(f"字典键错误,可能CSV文件缺少列名:{e}")
    except Exception as e:
        print(f"读取文件时发生错误: {e}")

    是不是感觉方便多了?当CSV文件没有标题行时,你可以通过

    fieldnames
    参数手动指定列名。

2. 使用

pandas
库:数据分析的利器

如果你的目标是数据分析、清洗、转换,或者处理的数据量较大,那么

pandas
绝对是你的首选。它构建在
NumPy
之上,提供了高性能的数据结构(主要是
DataFrame
),让数据处理变得异常高效和直观。
  • 核心函数:

    pd.read_csv()
    pandas
    read_csv()
    函数功能异常强大,几乎可以应对各种复杂的CSV读取场景。
    import pandas as pd
    
    try:
        # 默认情况下,read_csv()会尝试识别分隔符,并假设第一行为标题
        df = pd.read_csv('data.csv', encoding='utf-8')
        print("使用pandas读取的数据框:")
        print(df.head()) # 打印前几行数据
        print("\n数据框信息:")
        df.info() # 查看数据类型和非空值数量
    except FileNotFoundError:
        print("data.csv 文件不存在。")
    except Exception as e:
        print(f"使用pandas读取文件时发生错误: {e}")
  • pd.read_csv()
    的常用参数:
    read_csv()
    的强大之处在于它的各种参数,能让你精细控制读取过程:
    • sep
      (或
      delimiter
      ): 指定分隔符,比如
      sep=';'
    • header
      : 指定哪一行作为列名。
      header=None
      表示没有标题行,
      header=0
      (默认)表示第一行是标题。
    • names
      : 当没有标题行时,手动指定列名列表。
    • index_col
      : 指定哪一列作为DataFrame的索引。
    • dtype
      : 明确指定某些列的数据类型,可以节省内存并避免类型推断错误。
    • encoding
      : 指定文件编码,这是个大坑,我们后面会细说。
    • skiprows
      : 跳过文件开头的指定行数。
    • nrows
      : 只读取文件的前N行。
    • chunksize
      : 对于超大文件,可以分块读取,避免一次性加载到内存。
    • parse_dates
      : 尝试将某些列解析为日期时间类型。

    一个综合示例:

    import pandas as pd
    
    # 假设有一个文件 'complex_data.csv'
    # 前两行是注释,第三行是标题,分隔符是制表符,日期列需要解析
    # # This is a comment
    # # Another comment
    # ID\tName\tBirthday\tValue
    # 1\tAlice\t1990-01-15\t100.5
    # 2\tBob\t1985-03-20\t200.0
    
    try:
        df_complex = pd.read_csv('complex_data.csv',
                                 sep='\t', # 指定制表符为分隔符
                                 skiprows=[0, 1], # 跳过前两行注释
                                 parse_dates=['Birthday'], # 将Birthday列解析为日期
                                 encoding='utf-8')
        print("\n使用更多参数读取的数据框:")
        print(df_complex.head())
        print("\n解析后的数据类型:")
        print(df_complex.dtypes)
    except FileNotFoundError:
        print("complex_data.csv 文件不存在。")
    except Exception as e:
        print(f"读取复杂文件时发生错误: {e}")
Python读取CSV文件时,最让人头疼的编码问题该如何应对?

在我多年的数据处理经验里,编码问题绝对是新手甚至老手都会频繁踩坑的地方。你经常会看到

UnicodeDecodeError
这样的报错,让人抓狂。这通常意味着你告诉Python用A编码去解读一个实际是B编码的文件。

为什么会发生编码问题? 简单来说,不同的操作系统、不同的文本编辑器,甚至不同的国家,在保存文本文件时可能会使用不同的字符编码标准。比如,Windows系统下中文环境默认可能是

gbk
gb2312
,而Linux或Mac系统,以及网络传输,则更倾向于
utf-8
。当Python尝试以错误的编码方式读取文件时,它就无法正确地将字节序列转换成可识别的字符,于是就报错了。

如何诊断和解决?

  1. 首选

    utf-8
    : 经验告诉我,
    utf-8
    是目前最通用、兼容性最好的编码。所以,无论是使用
    csv
    模块还是
    pandas
    ,我都会首先尝试
    encoding='utf-8'
    # csv 模块
    with open('file.csv', 'r', encoding='utf-8') as f:
        # ...
    
    # pandas
    df = pd.read_csv('file.csv', encoding='utf-8')
  2. 尝试其他常见编码:

    gbk
    /
    gb2312
    /
    latin-1
    /
    iso-8859-1
    如果
    utf-8
    不行,尤其是处理来自国内Windows环境的文件,那么
    gbk
    gb2312
    是很可能正确的选择。
    latin-1
    iso-8859-1
    则是一种更宽松的编码,它能读取几乎所有字节,但对于非拉丁字符(如中文)可能会导致乱码,不过至少能保证文件能被打开,你再手动处理乱码列。
    # 尝试 gbk
    try:
        df = pd.read_csv('file.csv', encoding='gbk')
    except UnicodeDecodeError:
        print("gbk 编码失败,尝试其他编码...")
        # 尝试 latin-1
        try:
            df = pd.read_csv('file.csv', encoding='latin-1')
        except Exception as e:
            print(f"所有尝试都失败了: {e}")
  3. 利用

    chardet
    库自动检测编码: 当你实在不确定文件的编码时,
    chardet
    库可以派上用场。它会尝试猜测文件的编码。不过,请注意,
    chardet
    不是100%准确,尤其是在文件较小或内容不够多样时,但它能提供一个很好的起点。
    import chardet
    import pandas as pd
    
    def detect_encoding(file_path, num_bytes=10000):
        """尝试检测文件的编码"""
        with open(file_path, 'rb') as f: # 以二进制模式读取
            raw_data = f.read(num_bytes) # 读取前N个字节
        result = chardet.detect(raw_data)
        return result['encoding']
    
    file_path = 'unknown_encoding.csv'
    detected_enc = detect_encoding(file_path)
    print(f"检测到的编码是: {detected_enc}")
    
    if detected_enc:
        try:
            df = pd.read_csv(file_path, encoding=detected_enc)
            print("成功以检测到的编码读取文件。")
        except Exception as e:
            print(f"使用检测到的编码 {detected_enc} 失败: {e}")
            # fallback to manual tries if detection fails
    else:
        print("未能检测到编码,请手动尝试。")

    这是一个很实用的技巧,能帮你省下不少猜测的时间。

  4. errors
    参数(慎用): 在
    open()
    函数或
    pd.read_csv()
    中,你可以使用
    errors='ignore'
    errors='replace'
    来处理编码错误。
    ignore
    会忽略无法解码的字符,
    replace
    会用一个占位符替换它们。但这会丢失数据,通常只在数据质量要求不高或需要快速查看文件内容时使用。
    # 忽略编码错误,但数据可能不完整或乱码
    df = pd.read_csv('file.csv', encoding='utf-8', errors='ignore')

    总的来说,处理编码问题需要耐心和一点点试错。从

    utf-8
    开始,不行就尝试
    gbk
    ,实在不行再借助
    chardet
    ,最后才考虑
    latin-1
    或忽略错误。
读取CSV后,如何快速对数据进行初步的清洗和预处理?

数据读取进来只是第一步,真正有价值的工作往往从数据清洗和预处理开始。

pandas
在这方面简直是神一样的存在,它提供了一整套高效且直观的工具。
  1. 查看数据概览:

    df.info()
    df.head()
    /
    df.tail()
    这是我每次拿到新数据后的第一步。
    df.info()
    会告诉你每列的数据类型、非空值的数量以及内存占用,这对于了解数据质量至关重要。
    df.head()
    df.tail()
    则能让你快速预览数据的前几行和后几行,有个直观的印象。
    # 假设 df 已经是一个 DataFrame
    print("数据框信息概览:")
    df.info()
    print("\n数据框前5行:")
    print(df.head())
  2. 处理缺失值:

    isnull()
    /
    dropna()
    /
    fillna()
    缺失值是数据清洗的常客。
    • df.isnull().sum()
      :统计每列的缺失值数量。
    • df.dropna()
      :删除含有缺失值的行或列(
      axis=1
      )。
    • df.fillna(value)
      :用指定的值(如均值、中位数、众数或特定字符串)填充缺失值。
    # 检查缺失值
    print("\n每列的缺失值数量:")
    print(df.isnull().sum())
    
    # 删除所有含有缺失值的行
    df_cleaned = df.dropna()
    print(f"\n删除缺失值后的行数: {len(df_cleaned)}")
    
    # 用平均值填充某一列的缺失值
    # 假设 'Age' 列有缺失值,且是数值类型
    if 'Age' in df.columns and pd.api.types.is_numeric_dtype(df['Age']):
        df['Age'].fillna(df['Age'].mean(), inplace=True)
        print("\n'Age'列缺失值已用均值填充。")
  3. 处理重复值:

    duplicated()
    /
    drop_duplicates()
    重复行会干扰分析结果。
    • df.duplicated().sum()
      :统计重复行的数量。
    • df.drop_duplicates()
      :删除重复行。你可以指定
      subset
      参数来基于特定列判断重复。
    print(f"\n重复行数量: {df.duplicated().sum()}")
    df_unique = df.drop_duplicates()
    print(f"删除重复行后的行数: {len(df_unique)}")
  4. 列名标准化:

    rename()
    有时候列名可能不规范,包含特殊字符或空格。统一列名是一个好习惯。
    # 假设有一列名为 'User Name',我们想改成 'UserName'
    if 'User Name' in df.columns:
        df.rename(columns={'User Name': 'UserName'}, inplace=True)
        print("\n列名 'User Name' 已重命名为 'UserName'。")
  5. 数据类型转换:

    astype()
    /
    pd.to_datetime()
    /
    pd.to_numeric()
    df.info()
    中看到的数据类型可能不总是你想要的。比如,数字列被读成了字符串,或者日期被当成了对象。
    • df['column'].astype(int)
      :将列转换为整数。

以上就是Python如何读取csv文件_Python读取csv文件方法总结的详细内容,更多请关注知识资源分享宝库其它相关文章!

标签:  读取 文件 方法 

发表评论:

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。