Python 使用 pandas chunk 处理大文件（大文件.Python.pandas.chunk...）

chunk是pandas分块读取数据时的单位，设置chunksize可返回可迭代对象，每块为小型DataFrame；示例中每次读取10000行进行处理，适用于清洗、统计、导出等场景；通过累计sum和count计算全局均值，或过滤后保存到新文件、写入数据库；需权衡chunksize大小，避免内存累积，注意跨块操作需维护中间状态。

python 使用 pandas chunk 处理大文件

处理大文件时，直接读取整个文件容易导致内存溢出。Python 中的 pandas 提供了 chunksize 参数，可以分块读取数据，逐块处理，有效降低内存占用。

什么是 chunk？

在使用 pandas.read_csv() 或类似方法时，设置 chunksize 参数会返回一个可迭代的对象，每次只加载一部分数据。每一块（chunk）都是一个小型 DataFrame，可以单独处理。

示例代码：

import pandas as pd
<h1>指定每次读取 10000 行</h1><p>chunk_size = 10000
file_path = 'large_data.csv'</p><p>for chunk in pd.read_csv(file_path, chunksize=chunk_size):</p><h1>对每一块数据进行处理</h1><pre class="brush:php;toolbar:false;"><pre class="brush:php;toolbar:false;">print(f"处理 {len(chunk)} 行数据")
# 例如：统计某一列的均值
if 'value' in chunk.columns:
    print("value 列平均值:", chunk['value'].mean())

常见用途与技巧

分块读取适用于多种场景，比如数据清洗、聚合统计、写入数据库或导出新文件。

Teleporthq

一体化AI网站生成器，能够快速设计和部署静态网站

182 查看详情 Teleporthq

1. 聚合全局统计信息
即使数据被分块，也可以累计计算总和、均值等。

total_sum = 0
total_count = 0
<p>for chunk in pd.read_csv(file_path, chunksize=10000):
total_sum += chunk['value'].sum()
total_count += len(chunk)</p><p>overall_mean = total_sum / total_count
print("整体均值:", overall_mean)</p>

2. 过滤数据并保存结果
可以筛选符合条件的数据，写入新文件。

<pre class="brush:php;toolbar:false;">output_file = 'filtered_data.csv'
first_chunk = True  # 控制是否写入表头
<p>for chunk in pd.read_csv(file_path, chunksize=10000):
filtered = chunk[chunk['value'] > 100]</p><h1>第一次写入时包含表头，后续追加</h1><pre class="brush:php;toolbar:false;">filtered.to_csv(output_file, mode='a', header=first_chunk, index=False)
first_chunk = False

3. 写入数据库
适合将大数据逐步导入数据库。

<pre class="brush:php;toolbar:false;">from sqlalchemy import create_engine
<p>engine = create_engine('sqlite:///mydb.db')</p><p>for chunk in pd.read_csv(file_path, chunksize=5000):
chunk.to_sql('table_name', engine, if_exists='append', index=False)</p>

注意事项

使用 chunk 处理时需要注意以下几点：

chunksize 大小需权衡：太小会增加 I/O 开销，太大仍可能耗内存，一般 5000～50000 行较合适。
确保每块数据处理完及时释放，避免累积变量占用内存。
若需去重或排序，分块处理会复杂，可能需要额外策略（如分组键哈希）。
某些操作（如跨块统计）需手动维护中间状态。

基本上就这些。合理使用 chunk 可以轻松应对远超内存容量的 CSV 文件处理任务。

以上就是Python 使用 pandas chunk 处理大文件的详细内容，更多请关注知识资源分享宝库其它相关文章！

相关标签： python 大数据 app csv 数据清洗内存占用可迭代对象 red Python pandas count 对象数据库大家都在看： Pandas数据分析：识别用户新访问零售商的条件列创建方法使用 Pandas 高效识别用户新零售商：条件列创建教程利用Pandas在窗口内创建条件列以识别新增零售商 Pandas矢量化操作：实现连续序列计数与阈值重置 Pandas向量化操作：实现序列连续计数与指定阈值重置