Python实战:从TXT文件读取数值并转换为Excel整数类型及计算平均值(平均值.整数.转换为.数值.实战...)

wufei123 发布于 2025-09-02 阅读(5)

Python实战:从TXT文件读取数值并转换为Excel整数类型及计算平均值

本教程详细介绍了如何使用Python的openpyxl库,将包含数值数据的TXT文件高效地读取并写入Excel文件。核心内容包括确保数值数据在Excel中正确显示为整数类型、动态计算并添加新列(如平均值),以及处理潜在的非数字数据。通过实际代码示例,展示了如何构建一个健壮的数据处理流程。

在日常数据处理中,我们经常需要将文本文件中的原始数据导入到结构化的excel表格中进行分析。一个常见的挑战是确保导入的数值数据在excel中被正确识别为数字类型(例如整数或浮点数),而非文本。本教程将引导您完成一个具体任务:从txt文件读取学生成绩数据,将其写入excel,确保成绩显示为整数,并计算每位学生的平均分。

准备工作

在开始之前,请确保您的Python环境中已安装openpyxl库。如果尚未安装,可以通过以下命令进行安装:

pip install openpyxl

假设我们有一个名为AI.txt的文本文件,其中包含学生的考试成绩,每行代表一个学生,每列代表一次考试的成绩,数值之间以空格分隔。例如:

85 92
78 88
90 95
65 70
82 89
75 80
核心步骤

我们将分步实现数据读取、类型转换、写入Excel以及计算平均值的过程。

1. 读取TXT文件

首先,我们需要打开并读取AI.txt文件的内容。使用with open(...)语句可以确保文件在操作完成后被正确关闭。readlines()方法将文件中的每一行读取为一个字符串列表。

import openpyxl

# 定义TXT文件路径
txt_file_path = 'AI.txt'

# 读取TXT文件内容
with open(txt_file_path, 'r') as file:
    lines = file.readlines()
2. 创建Excel工作簿和工作表

接下来,创建一个新的Excel工作簿(Workbook)和一个名为“qq”的工作表(Sheet)。为了确保“qq”工作表是第一个工作表,我们可以指定index=0。

# 创建新的Excel工作簿
workbook = openpyxl.Workbook()

# 创建名为'qq'的工作表,并确保它是第一个工作表
# 默认创建的'Sheet'工作表会被保留,这里我们直接指定index=0来创建并激活
sheet = workbook.create_sheet(index=0, title='qq')

# 如果默认创建的'Sheet'工作表不需要,可以删除
# del workbook['Sheet'] 

注意:workbook.create_sheet(index=0, title='qq') 会在工作簿中创建一个名为 'qq' 的新工作表,并将其放在第一个位置。如果工作簿默认创建了一个名为 'Sheet' 的工作表,它仍然会存在。如果想确保 'qq' 是唯一的工作表,可以在创建后删除默认的 'Sheet'。

3. 将数据写入Excel并进行类型转换

这是实现数值数据正确转换为整数的关键步骤。在将每一行数据追加到Excel工作表时,我们需要遍历行中的每个元素,并使用条件判断a.isdigit()来确定该元素是否为纯数字。如果是,则将其转换为整数类型;否则,保留其原始类型(这对于处理可能存在的非数字标题或文本数据非常有用,尽管本例的TXT文件是纯数字)。

for line in lines:
    # 移除行尾的换行符并按空格分割字符串,得到一个字符串列表
    cur = line.strip().split()

    # 使用列表推导式,将纯数字字符串转换为整数,非数字字符串保持不变
    # 然后将转换后的列表追加到Excel工作表
    sheet.append([int(a) if a.isdigit() else a for a in cur])

通过这种方式,openpyxl在写入单元格时会根据Python对象的类型自动设置Excel单元格的类型和显示格式。当int(a)被追加时,Excel会将其识别为数字。

4. 计算平均值并添加新列

现在,我们需要遍历已写入数据的行,计算每位学生的平均分,并将结果写入新的列。为了确保计算的健壮性,我们应只对数值类型(整数或浮点数)的单元格进行求和。

# 从第二行开始迭代(假设第一行可能是标题或我们稍后添加标题),遍历前三列
# 注意:如果TXT只有两列数据,max_col=3会包含一个空列,isinstance会过滤掉
for row_idx, row_cells in enumerate(sheet.iter_rows(min_row=2, max_col=3, max_row=sheet.max_row), start=2):
    # 提取当前行中所有数值类型的单元格值
    numeric_values = [cell.value for cell in row_cells if isinstance(cell.value, (int, float))]

    # 如果存在数值,则计算平均值
    if numeric_values:
        avg_value = sum(numeric_values) / len(numeric_values)
        # 将平均值写入第四列(列索引为4)
        sheet.cell(row=row_idx, column=4, value=avg_value)
    else:
        # 如果没有数值,可以写入空值或特定的错误信息
        sheet.cell(row=row_idx, column=4, value="") 

说明:iter_rows(min_row=2, max_col=3)会从第二行开始遍历,直到最大行,并且只考虑前三列。由于我们的TXT文件只有两列成绩,第三列的单元格在sheet.append后会是空的。isinstance(cell.value, (int, float))确保我们只对实际的数字进行平均值计算,避免了对空值或未来可能存在的非数字数据进行计算。

5. 添加平均值列的标题

为了使Excel表格更具可读性,我们应该为平均值列添加一个标题。

# 在第一行第四列添加“Mean”(平均值)标题
sheet.cell(row=1, column=4, value="Mean")
6. 保存Excel文件

最后一步是将所有更改保存到新的Excel文件AI56.xlsx中。

# 保存Excel工作簿
output_excel_path = 'AI56.xlsx'
workbook.save(output_excel_path)

print(f"数据已成功处理并保存到 {output_excel_path}")
完整代码示例

将上述所有步骤整合,形成完整的Python程序:

import openpyxl

# --- 配置参数 ---
txt_file_path = 'AI.txt'
output_excel_path = 'AI56.xlsx'
sheet_name = 'qq'
average_column_header = 'Mean'

# --- 1. 读取TXT文件 ---
try:
    with open(txt_file_path, 'r') as file:
        lines = file.readlines()
except FileNotFoundError:
    print(f"错误:文件 '{txt_file_path}' 未找到。请检查文件路径。")
    exit()

# --- 2. 创建Excel工作簿和工作表 ---
workbook = openpyxl.Workbook()
# 创建指定名称的工作表,并确保它是第一个(索引为0)
sheet = workbook.create_sheet(index=0, title=sheet_name)

# 如果默认创建的'Sheet'工作表不需要,可以删除
if 'Sheet' in workbook.sheetnames and workbook['Sheet'] != sheet:
    del workbook['Sheet']

# --- 3. 将数据写入Excel并进行类型转换 ---
# 假设TXT文件没有标题行,直接是数据
for line in lines:
    cur = line.strip().split()
    # 使用列表推导式,将纯数字字符串转换为整数,非数字字符串保持不变
    # 这确保了openpyxl在写入时能正确识别并设置单元格类型
    processed_row = [int(a) if a.isdigit() else a for a in cur]
    sheet.append(processed_row)

# --- 4. 计算平均值并添加新列 ---
# 确定数据列的范围(例如,前两列是分数)
# 根据实际TXT文件结构调整 max_col
# 如果TXT文件只有两列数据,这里 max_col=2 即可,但为了兼容性,max_col=3 也是安全的
# 因为 isinstance 会过滤掉空值
data_columns_for_average = 2 # 假设前两列是需要计算平均值的数据
average_output_column = data_columns_for_average + 2 # 平均值放在第4列 (1-based index)

# 遍历数据行(从第二行开始,因为第一行可能用于标题)
# 如果TXT文件没有标题,且Excel第一行是数据,则 min_row 应该从 1 开始
# 但为了添加标题,我们通常会从第二行处理数据
for row_idx in range(2, sheet.max_row + 1):
    row_cells = [sheet.cell(row=row_idx, column=col_idx) 
                 for col_idx in range(1, data_columns_for_average + 1)]

    numeric_values = [cell.value for cell in row_cells if isinstance(cell.value, (int, float))]

    if numeric_values:
        avg_value = sum(numeric_values) / len(numeric_values)
        # 将平均值写入指定的输出列
        sheet.cell(row=row_idx, column=average_output_column, value=avg_value)
    else:
        # 如果没有可计算平均值的数值,可以留空或写入其他提示
        sheet.cell(row=row_idx, column=average_output_column, value="")

# --- 5. 添加平均值列的标题 ---
# 在第一行,平均值输出列的位置添加标题
sheet.cell(row=1, column=average_output_column, value=average_column_header)

# --- 6. 保存Excel文件 ---
try:
    workbook.save(output_excel_path)
    print(f"数据已成功处理并保存到 '{output_excel_path}'")
except Exception as e:
    print(f"保存Excel文件时发生错误:{e}")
注意事项与最佳实践
  1. 数据类型验证的健壮性:使用a.isdigit()在写入前进行类型判断是确保Excel单元格正确显示为数字的关键。如果您的文本文件可能包含浮点数(例如85.5),则isdigit()将返回False。在这种情况下,您可能需要使用try-except块来尝试float()转换,或者使用更复杂的正则表达式来验证数字。

    # 示例:处理整数和浮点数
    def try_convert_to_number(s):
        try:
            return int(s)
        except ValueError:
            try:
                return float(s)
            except ValueError:
                return s # 如果都不是数字,则返回原始字符串
    
    # 在sheet.append中使用:
    # sheet.append([try_convert_to_number(a) for a in cur])
  2. Excel单元格格式:openpyxl通常会根据Python对象的类型自动设置Excel单元格的类型和默认格式。将Python int或float对象写入单元格,Excel通常会将其识别为“数字”类型。如果需要更精细的格式控制(如小数位数、货币格式等),可以使用cell.number_format属性进行设置。

  3. 错误处理:在实际应用中,应考虑添加文件不存在、数据格式不正确等情况的错误处理机制(例如try-except块)。

  4. 列索引:openpyxl中的列索引通常从1开始(A列是1,B列是2,以此类推),这与Python的0基索引有所不同。在处理sheet.cell(row=..., column=...)时请注意这一点。

  5. 内存效率:对于非常大的TXT文件,readlines()可能会一次性将所有内容加载到内存中。对于超大型文件,可以考虑逐行读取文件并处理,以减少内存消耗。

总结

通过本教程,您学会了如何使用Python和openpyxl库将TXT文件中的数值数据导入到Excel,并确保数据以正确的数字类型显示。关键在于在将数据追加到Excel之前,对每个数据项进行类型判断和转换,特别是利用isdigit()方法来处理字符串到整数的转换。此外,我们还展示了如何计算并添加新的数据列,如平均值,从而完成一个常见的数据处理任务。掌握这些技能将帮助您更有效地自动化数据导入和初步分析工作。

以上就是Python实战:从TXT文件读取数值并转换为Excel整数类型及计算平均值的详细内容,更多请关注知识资源分享宝库其它相关文章!

标签:  平均值 整数 转换为 

发表评论:

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。