Python实战：从TXT文件读取数值并转换为Excel整数类型及计算平均值（平均值.整数.转换为.数值.实战...）

Python实战：从TXT文件读取数值并转换为Excel整数类型及计算平均值

本教程详细介绍了如何使用Python的openpyxl库，将包含数值数据的TXT文件高效地读取并写入Excel文件。核心内容包括确保数值数据在Excel中正确显示为整数类型、动态计算并添加新列（如平均值），以及处理潜在的非数字数据。通过实际代码示例，展示了如何构建一个健壮的数据处理流程。

在日常数据处理中，我们经常需要将文本文件中的原始数据导入到结构化的excel表格中进行分析。一个常见的挑战是确保导入的数值数据在excel中被正确识别为数字类型（例如整数或浮点数），而非文本。本教程将引导您完成一个具体任务：从txt文件读取学生成绩数据，将其写入excel，确保成绩显示为整数，并计算每位学生的平均分。

准备工作

在开始之前，请确保您的Python环境中已安装openpyxl库。如果尚未安装，可以通过以下命令进行安装：

pip install openpyxl

假设我们有一个名为AI.txt的文本文件，其中包含学生的考试成绩，每行代表一个学生，每列代表一次考试的成绩，数值之间以空格分隔。例如：

核心步骤

我们将分步实现数据读取、类型转换、写入Excel以及计算平均值的过程。

1. 读取TXT文件

首先，我们需要打开并读取AI.txt文件的内容。使用with open(...)语句可以确保文件在操作完成后被正确关闭。readlines()方法将文件中的每一行读取为一个字符串列表。

import openpyxl

# 定义TXT文件路径
txt_file_path = 'AI.txt'

# 读取TXT文件内容
with open(txt_file_path, 'r') as file:
    lines = file.readlines()

2. 创建Excel工作簿和工作表

接下来，创建一个新的Excel工作簿（Workbook）和一个名为“qq”的工作表（Sheet）。为了确保“qq”工作表是第一个工作表，我们可以指定index=0。

# 创建新的Excel工作簿
workbook = openpyxl.Workbook()

# 创建名为'qq'的工作表，并确保它是第一个工作表
# 默认创建的'Sheet'工作表会被保留，这里我们直接指定index=0来创建并激活
sheet = workbook.create_sheet(index=0, title='qq')

# 如果默认创建的'Sheet'工作表不需要，可以删除
# del workbook['Sheet']

注意：workbook.create_sheet(index=0, title='qq') 会在工作簿中创建一个名为 'qq' 的新工作表，并将其放在第一个位置。如果工作簿默认创建了一个名为 'Sheet' 的工作表，它仍然会存在。如果想确保 'qq' 是唯一的工作表，可以在创建后删除默认的 'Sheet'。

3. 将数据写入Excel并进行类型转换

这是实现数值数据正确转换为整数的关键步骤。在将每一行数据追加到Excel工作表时，我们需要遍历行中的每个元素，并使用条件判断a.isdigit()来确定该元素是否为纯数字。如果是，则将其转换为整数类型；否则，保留其原始类型（这对于处理可能存在的非数字标题或文本数据非常有用，尽管本例的TXT文件是纯数字）。

for line in lines:
    # 移除行尾的换行符并按空格分割字符串，得到一个字符串列表
    cur = line.strip().split()

    # 使用列表推导式，将纯数字字符串转换为整数，非数字字符串保持不变
    # 然后将转换后的列表追加到Excel工作表
    sheet.append([int(a) if a.isdigit() else a for a in cur])

通过这种方式，openpyxl在写入单元格时会根据Python对象的类型自动设置Excel单元格的类型和显示格式。当int(a)被追加时，Excel会将其识别为数字。

4. 计算平均值并添加新列

现在，我们需要遍历已写入数据的行，计算每位学生的平均分，并将结果写入新的列。为了确保计算的健壮性，我们应只对数值类型（整数或浮点数）的单元格进行求和。

# 从第二行开始迭代（假设第一行可能是标题或我们稍后添加标题），遍历前三列
# 注意：如果TXT只有两列数据，max_col=3会包含一个空列，isinstance会过滤掉
for row_idx, row_cells in enumerate(sheet.iter_rows(min_row=2, max_col=3, max_row=sheet.max_row), start=2):
    # 提取当前行中所有数值类型的单元格值
    numeric_values = [cell.value for cell in row_cells if isinstance(cell.value, (int, float))]

    # 如果存在数值，则计算平均值
    if numeric_values:
        avg_value = sum(numeric_values) / len(numeric_values)
        # 将平均值写入第四列（列索引为4）
        sheet.cell(row=row_idx, column=4, value=avg_value)
    else:
        # 如果没有数值，可以写入空值或特定的错误信息
        sheet.cell(row=row_idx, column=4, value="")

说明：iter_rows(min_row=2, max_col=3)会从第二行开始遍历，直到最大行，并且只考虑前三列。由于我们的TXT文件只有两列成绩，第三列的单元格在sheet.append后会是空的。isinstance(cell.value, (int, float))确保我们只对实际的数字进行平均值计算，避免了对空值或未来可能存在的非数字数据进行计算。

5. 添加平均值列的标题

为了使Excel表格更具可读性，我们应该为平均值列添加一个标题。

# 在第一行第四列添加“Mean”（平均值）标题
sheet.cell(row=1, column=4, value="Mean")

6. 保存Excel文件

最后一步是将所有更改保存到新的Excel文件AI56.xlsx中。

# 保存Excel工作簿
output_excel_path = 'AI56.xlsx'
workbook.save(output_excel_path)

print(f"数据已成功处理并保存到 {output_excel_path}")

完整代码示例

将上述所有步骤整合，形成完整的Python程序：

import openpyxl

# --- 配置参数 ---
txt_file_path = 'AI.txt'
output_excel_path = 'AI56.xlsx'
sheet_name = 'qq'
average_column_header = 'Mean'

# --- 1. 读取TXT文件 ---
try:
    with open(txt_file_path, 'r') as file:
        lines = file.readlines()
except FileNotFoundError:
    print(f"错误：文件 '{txt_file_path}' 未找到。请检查文件路径。")
    exit()

# --- 2. 创建Excel工作簿和工作表 ---
workbook = openpyxl.Workbook()
# 创建指定名称的工作表，并确保它是第一个（索引为0）
sheet = workbook.create_sheet(index=0, title=sheet_name)

# 如果默认创建的'Sheet'工作表不需要，可以删除
if 'Sheet' in workbook.sheetnames and workbook['Sheet'] != sheet:
    del workbook['Sheet']

# --- 3. 将数据写入Excel并进行类型转换 ---
# 假设TXT文件没有标题行，直接是数据
for line in lines:
    cur = line.strip().split()
    # 使用列表推导式，将纯数字字符串转换为整数，非数字字符串保持不变
    # 这确保了openpyxl在写入时能正确识别并设置单元格类型
    processed_row = [int(a) if a.isdigit() else a for a in cur]
    sheet.append(processed_row)

# --- 4. 计算平均值并添加新列 ---
# 确定数据列的范围（例如，前两列是分数）
# 根据实际TXT文件结构调整 max_col
# 如果TXT文件只有两列数据，这里 max_col=2 即可，但为了兼容性，max_col=3 也是安全的
# 因为 isinstance 会过滤掉空值
data_columns_for_average = 2 # 假设前两列是需要计算平均值的数据
average_output_column = data_columns_for_average + 2 # 平均值放在第4列 (1-based index)

# 遍历数据行（从第二行开始，因为第一行可能用于标题）
# 如果TXT文件没有标题，且Excel第一行是数据，则 min_row 应该从 1 开始
# 但为了添加标题，我们通常会从第二行处理数据
for row_idx in range(2, sheet.max_row + 1):
    row_cells = [sheet.cell(row=row_idx, column=col_idx) 
                 for col_idx in range(1, data_columns_for_average + 1)]

    numeric_values = [cell.value for cell in row_cells if isinstance(cell.value, (int, float))]

    if numeric_values:
        avg_value = sum(numeric_values) / len(numeric_values)
        # 将平均值写入指定的输出列
        sheet.cell(row=row_idx, column=average_output_column, value=avg_value)
    else:
        # 如果没有可计算平均值的数值，可以留空或写入其他提示
        sheet.cell(row=row_idx, column=average_output_column, value="")

# --- 5. 添加平均值列的标题 ---
# 在第一行，平均值输出列的位置添加标题
sheet.cell(row=1, column=average_output_column, value=average_column_header)

# --- 6. 保存Excel文件 ---
try:
    workbook.save(output_excel_path)
    print(f"数据已成功处理并保存到 '{output_excel_path}'")
except Exception as e:
    print(f"保存Excel文件时发生错误：{e}")

注意事项与最佳实践

数据类型验证的健壮性：使用a.isdigit()在写入前进行类型判断是确保Excel单元格正确显示为数字的关键。如果您的文本文件可能包含浮点数（例如85.5），则isdigit()将返回False。在这种情况下，您可能需要使用try-except块来尝试float()转换，或者使用更复杂的正则表达式来验证数字。
```
# 示例：处理整数和浮点数
def try_convert_to_number(s):
    try:
        return int(s)
    except ValueError:
        try:
            return float(s)
        except ValueError:
            return s # 如果都不是数字，则返回原始字符串

# 在sheet.append中使用：
# sheet.append([try_convert_to_number(a) for a in cur])
```
Excel单元格格式：openpyxl通常会根据Python对象的类型自动设置Excel单元格的类型和默认格式。将Python int或float对象写入单元格，Excel通常会将其识别为“数字”类型。如果需要更精细的格式控制（如小数位数、货币格式等），可以使用cell.number_format属性进行设置。
错误处理：在实际应用中，应考虑添加文件不存在、数据格式不正确等情况的错误处理机制（例如try-except块）。
列索引：openpyxl中的列索引通常从1开始（A列是1，B列是2，以此类推），这与Python的0基索引有所不同。在处理sheet.cell(row=..., column=...)时请注意这一点。
内存效率：对于非常大的TXT文件，readlines()可能会一次性将所有内容加载到内存中。对于超大型文件，可以考虑逐行读取文件并处理，以减少内存消耗。

总结

通过本教程，您学会了如何使用Python和openpyxl库将TXT文件中的数值数据导入到Excel，并确保数据以正确的数字类型显示。关键在于在将数据追加到Excel之前，对每个数据项进行类型判断和转换，特别是利用isdigit()方法来处理字符串到整数的转换。此外，我们还展示了如何计算并添加新的数据列，如平均值，从而完成一个常见的数据处理任务。掌握这些技能将帮助您更有效地自动化数据导入和初步分析工作。

以上就是Python实战：从TXT文件读取数值并转换为Excel整数类型及计算平均值的详细内容，更多请关注知识资源分享宝库其它相关文章！