使用 PyMuPDF 按页码范围分割 PDF 并保留目录（页码.分割.保留.目录.PyMuPDF...）

使用 PyMuPDF 按页码范围分割 PDF 并保留目录

本文档旨在提供一个使用 PyMuPDF 库分割 PDF 文件并保留对应目录的教程。我们将介绍如何提取原始 PDF 的目录，针对分割后的每个部分，调整目录结构以符合 PyMuPDF 的规范，并将调整后的目录添加到分割后的 PDF 文件中，确保分割后的文档仍然具有完整的导航功能。 ### 前提条件确保已经安装了 PyMuPDF 库。如果没有安装，可以使用 pip 进行安装： ```bash pip install pymupdf提取目录

首先，我们需要从原始 pdf 文件中提取目录。pymupdf 提供了 document.get_toc() 方法来获取目录信息。目录信息以嵌套列表的形式返回，每个子列表代表一个目录项，包含层级、标题和页码。

import fitz

def extract_toc(input_pdf_path):
    """
    从 PDF 文件中提取目录。

    Args:
        input_pdf_path (str): 输入 PDF 文件的路径。

    Returns:
        list: 目录列表，每个元素是一个包含层级、标题和页码的列表。
    """
    pdf_document = fitz.open(input_pdf_path)
    toc = pdf_document.get_toc()
    pdf_document.close()
    return toc

分割 PDF 并调整目录

接下来，我们需要根据指定的页码范围分割 PDF 文件，并为每个分割后的文件调整目录。关键在于，分割后的每个 PDF 的目录必须符合 PyMuPDF 的目录规则：

第一个目录项的层级必须为 1。
后续目录项的层级只能与前一个目录项相同、高一级或低于前一个目录项。

def split_pdf_with_toc(input_pdf_path, output_folder, page_ranges):
    """
    分割 PDF 文件并保留目录。

    Args:
        input_pdf_path (str): 输入 PDF 文件的路径。
        output_folder (str): 输出文件夹的路径。
        page_ranges (list): 页码范围列表，每个元素是一个包含起始页和结束页的元组。
    """
    pdf_document = fitz.open(input_pdf_path)
    original_toc = pdf_document.get_toc()

    for i, (start_page, end_page) in enumerate(page_ranges, start=1):
        # 创建新的 PDF 文件
        chapter_pdf = fitz.open()
        chapter_pdf.insert_pdf(pdf_document, from_page=start_page - 1, to_page=end_page - 1)

        # 提取对应页码范围的目录
        chapter_toc = []
        for level, title, page in original_toc:
            if start_page <= page <= end_page:
                chapter_toc.append([level, title, page - start_page + 1]) # 页码需要重新计算

        # 调整目录结构
        if chapter_toc:
            first_level = chapter_toc[0][0]
            if first_level != 1:
                for j in range(1, first_level):
                    chapter_toc.insert(0, [j, "dummy", 1])

        # 设置目录
        chapter_pdf.set_toc(chapter_toc)

        # 保存新的 PDF 文件
        output_pdf_path = f"{output_folder}/Chapter_{i}.pdf"
        chapter_pdf.save(output_pdf_path)
        chapter_pdf.close()

    pdf_document.close()

示例

以下是一个使用示例：

# 示例用法
input_pdf_path = "input.pdf"  # 替换为你的输入 PDF 文件路径
output_folder = "output"  # 替换为你的输出文件夹路径
page_ranges = [(1, 10), (11, 20), (21, 30)]  # 定义页码范围

split_pdf_with_toc(input_pdf_path, output_folder, page_ranges)

在这个例子中，我们将 input.pdf 文件分割成三个部分，分别包含第 1-10 页、第 11-20 页和第 21-30 页。分割后的文件将保存在 output 文件夹中，文件名分别为 Chapter_1.pdf、Chapter_2.pdf 和 Chapter_3.pdf。每个分割后的 PDF 文件都将包含与其内容对应的目录。

注意事项

页码计算：在调整目录时，需要重新计算分割后 PDF 文件的页码。
目录规则：确保调整后的目录符合 PyMuPDF 的规则，否则可能导致目录显示不正确。
错误处理：在实际应用中，应该添加适当的错误处理机制，例如处理文件不存在、页码范围无效等情况。
目录提取的准确性: 某些PDF可能存在目录结构复杂或不规范的情况，提取的目录可能不完全准确，需要根据实际情况进行调整。

总结

通过使用 PyMuPDF 库，我们可以方便地分割 PDF 文件并保留目录。关键在于理解 PyMuPDF 的目录规则，并根据这些规则调整分割后 PDF 文件的目录结构。希望本教程能够帮助你更好地处理 PDF 文件。

以上就是使用 PyMuPDF 按页码范围分割 PDF 并保留目录的详细内容，更多请关注知识资源分享宝库其它相关文章！

使用 PyMuPDF 按页码范围分割 PDF 并保留目录（页码.分割.保留.目录.PyMuPDF...）

最近发表

标签列表

使用 PyMuPDF 按页码范围分割 PDF 并保留目录（页码.分割.保留.目录.PyMuPDF...）

相关阅读

高效运维实战指南：从救火到自愈的自动化转型

数据分析入门教程：别学工具了，先学会向数据提问

高效运维实战指南：从“救火”到“防火”的自动化体系构建

数据分析入门教程：90%的人第一步就错了，难怪学不会

从零到一：自动化工作流搭建实战指南，释放你的生产力

自动化工作流搭建实战：从思维到落地的全流程拆解

最近发表

标签列表