合并 PDF 文件

2023-12-27

是否可以使用 Python 合并单独的 PDF 文件？

假设是这样，我需要进一步扩展一下。我希望循环遍历目录中的文件夹并重复此过程。

我可能会碰碰运气，但是否有可能排除每个 PDF 中包含的页面（我的报告生成总是会创建一个额外的空白页面）。

您可以使用pypdf https://github.com/py-pdf/pypdfs PdfMerger https://pypdf.readthedocs.io/en/stable/modules/PdfMerger.html class.

文件串联

您可以简单地连接 https://en.wikipedia.org/wiki/Concatenation文件通过使用append https://pypdf.readthedocs.io/en/latest/modules/PdfMerger.html#pypdf.PdfMerger.append method.

from pypdf import PdfMerger

pdfs = ['file1.pdf', 'file2.pdf', 'file3.pdf', 'file4.pdf']

merger = PdfMerger()

for pdf in pdfs:
    merger.append(pdf)

merger.write("result.pdf")
merger.close()

如果需要，您可以传递文件句柄而不是文件路径。

文件合并

如果您想要更细粒度的合并控制，可以使用merge https://pypdf.readthedocs.io/en/latest/modules/PdfMerger.html#pypdf.merger.PdfMerger.merge的方法PdfMerger，它允许您在输出文件中指定插入点，这意味着您可以将页面插入文件中的任何位置。这append方法可以被认为是merge其中插入点是文件末尾。

e.g.

merger.merge(2, pdf)

在这里，我们将整个 PDF 插入到输出中，但在第 2 页。

页面范围

如果您希望控制从特定文件附加哪些页面，您可以使用pages的关键字参数append and merge，传递一个元组形式(start, stop[, step])（就像常规的range功能）。

e.g.

merger.append(pdf, pages=(0, 3))    # first 3 pages
merger.append(pdf, pages=(0, 6, 2)) # pages 1,3, 5

如果您指定了无效范围，您将得到一个IndexError.

Note:另外，为了避免文件保持打开状态，PdfMerger当合并文件写入后，应调用 close 方法。这可确保及时关闭所有文件（输入和输出）。遗憾的是PdfMerger没有作为上下文管理器实现，所以我们可以使用with关键字，避免显式关闭调用并获得一些简单的异常安全性。

您可能还想查看pdfly cat https://github.com/py-pdf/pdfly由 pypdf 开发人员提供的命令。您可以完全避免编写代码的需要。

pypdf 文档还includes https://pypdf.readthedocs.io/en/stable/user/merging-pdfs.html一些演示合并的示例代码。

PyMuPdf

另一个可能值得一看的图书馆是PyMuPdf https://github.com/pymupdf/PyMuPDF。合并同样简单。

从命令行：

python -m fitz join -o result.pdf file1.pdf file2.pdf file3.pdf

并从代码中

import fitz

result = fitz.open()

for pdf in ['file1.pdf', 'file2.pdf', 'file3.pdf']:
    with fitz.open(pdf) as mfile:
        result.insert_pdf(mfile)
    
result.save("result.pdf")

有很多选项，详细信息在项目中wiki https://github.com/pymupdf/PyMuPDF/wiki.

注意：在旧版本的 PyMuPDF 中insert_pdf was insertPDF

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

合并 PDF 文件的相关文章

Pandas apply 与 np.vectorize 从现有列创建新列的性能

我正在使用 Pandas 数据框并希望创建一个新列作为现有列的函数我还没有看到关于之间速度差异的很好的讨论df apply and np vectorize 所以我想我会在这里问熊猫apply 功能很慢根据我的测量在一些实验中如下
具有多处理功能的 Python 代码无法在 Windows 上运行

以下简单的绝对初学者代码在 Ubuntu 14 04 Python 2 7 6 和 Cygwin Python 2 7 8 上运行 100 但在 Windows 64 位 Python 2 7 8 上挂起我使用另一个片段观察到了同样的情况
编辑 scikit-learn 决策树

我想编辑 sklearn DecisionTree 例如改变条件或切割节点叶子等但似乎没有功能可以做到这一点如果我可以导出到文件编辑它以导入如何编辑决策树环境 Windows 10 python3 3 sklearn 0 17
子进程改变目录

我想在子目录超级目录中执行脚本我需要首先进入该子目录超级目录我无法得到subprocess进入我的子目录 tducin localhost Projekty tests ve python Python 2 7 4 default
将 API 数据存储到 DataFrame 中

我正在运行 Python 脚本来从 Interactive Brokers API 收集金融市场数据连接到API后终端打印出请求的历史数据如何将数据保存到数据帧中而不是在终端中流式传输 from ibapi wrapper impor
字典中的列表，Python 中的循环

我有以下代码 TYPES hotmail type hotmail lookup mixed dkim no signatures S Return Path email protected cdn cgi l email protecti
Pyspark 数据框逐行空列列表

我有一个 Spark 数据框我想创建一个新列其中包含每行中具有 null 的列名称例如原始数据框是 col 1 col 2 col 3 62 45 null 62 49 56 45 null null null null null
在Python中创建一个新表

我正在尝试从数控机床中提取数据事件每毫秒发生一次我需要过滤掉一些用管道分隔的变量分隔符 PuTTy exe 程序生成的日志文件我尝试阅读熊猫但列不在同一位置 df pd read table data log sep 日志文件的一
网页抓取 - 前往第 2 页

如何访问数据集的第二页无论我做什么它都只返回第 1 页 import bs4 from urllib request import urlopen as uReq from bs4 import BeautifulSoup as sou
错误：无法访问文件“$libdir/plpython2”：没有这样的文件或目录

我正在运行 postgresql 9 4 PostgreSQL 9 4 4 on x86 64 unknown linux gnu compiled by gcc GCC 4 1 2 20070626 Red Hat 4 1 2 14 64
如何使用 Python 多处理避免在分叉进程中加载父模块

当您创建一个Pool使用Python的进程multiprocessing 这些进程将分叉父进程中的全局变量将显示在子进程中如下面的问题所述如何限制多处理进程的范围 https stackoverflow com questions 2
在 matplotlib 中使用 yscale('log') 时缺少误差线

在某些情况下当使用对数刻度时 matplotlib 会错误地显示带有误差条的图假设这些数据例如在 pylab 内 s 19 0 20 0 21 0 22 0 24 0 v 36 5 66 814250000000001 130 177
Python 视频框架

我正在寻找一个 Python 框架它将使我能够播放视频并在该视频上绘图用于标记目的我尝试过 Pyglet 但这似乎效果不是特别好在现有视频上绘图时会出现闪烁即使使用双缓冲和所有这些好东西而且似乎没有办法在每帧回调期间获取视频中
为什么“return self”返回 None ？ [复制]

这个问题在这里已经有答案了我正在尝试获取链的顶部节点getTopParent 当我打印出来时self name 它确实打印出了父实例的名称然而当我回来时self 它返回 None 为什么是这样 class A def init sel
Spark中的count和collect函数抛出IllegalArgumentException

当我使用时抛出此异常时我尝试在本地 Spark 上加载一个小数据集count 在 PySpark 中 take 似乎有效我试图搜索这个问题但没有找到原因看来RDD的分区有问题有任何想法吗先感谢您 sc stop sc Spark
如何在C++中列出Python模块的所有函数名称？

我有一个 C 程序我想导入一个 Python 模块并列出该模块中的所有函数名称我该怎么做我使用以下代码从模块中获取字典 PyDictObject pDict PyDictObject PyModule GetDict pModule
如何向 SCons 构建添加预处理和后处理操作？

我正在尝试在使用 SCons 构建项目时添加预处理和后处理操作 SConstruct 和 SConscript 文件位于项目的顶部预处理动作生成代码通过调用不同的工具 gt 不知道在此预处理之后将生成的确切文件可以创建用于决定生成哪
Jupyter Notebook：没有名为 pandas 的模块

我搜索了其他问题但没有找到任何有帮助的内容大多数只是建议您使用 conda 或 pip 安装 pandas 在我的 jupyter 笔记本中我试图导入 pandas import pandas as pd 但我收到以下错误 Modul
最小硬币找零问题——回溯

我正在尝试用最少数量的硬币解决硬币找零问题采用回溯法我实际上已经完成了它但我想添加一些选项按其单位打印硬币数量而不仅仅是总数这是我下面的Python代码 def minimum coins coin list change mi
SQLAlchemy：避免声明式样式类定义中的重复

我正在使用 SQLAlchemy 并且我的对象模型中的许多类具有相同的两个属性 id 和整数和主键以及名称字符串我试图避免在每个类中声明它们如下所示 class C1 declarative base id Column Inte

随机推荐

使用 LESS 构建选择器列表

一般问题我有媒体查询我在其中更改某些文本元素如下所示 body single entry content p body single entry content ul body single entry content ol body
Cognito 和 Java - 用户名不能是电子邮件格式，因为用户池是为电子邮件别名配置的

我创建了 Cognito 用户池如下所示 settings https i stack imgur com sXf06 png for 允许用户通过电子邮件或用户名登录并且对于每个用户来说都是唯一的这是我的帐户 Cognito 实施
Jquery 验证删除规则不起作用

我正在根据输入动态设置验证在添加验证之前我要删除规则并添加它是必需的元素我设置删除规则后消息不会消失 for var i 0 i lt data length i switch data i FieldName case ADDRE
Scala Play 2.1.0 - 资产未出现在 Heroku 上？

我的应用程序在开发中运行良好图像显示但是当部署到 Heroku 时它们神秘地消失了代码是 img src routes Assets at myImage png gt Heroku 是否搞砸了或者我错过了什么确保您的项目pub
Select2 formatResult 获取选项的属性

使用在 select2 中获取自定义数据属性 https stackoverflow com questions 22261209 get custom data attribute in select2 with select 我们需要
从 timedelta 中提取分钟 - Python

我有一个包含 timedelta 的列我想创建一个额外的列从 timedelta 列中提取小时和分钟 df time delta hour minute 02 51 21 401000 2h 51min 03 10 32 401000
在哪里可以找到 System.Linq.Dynamic dll？

我正在到处寻找这个dll 但在任何地方都找不到它有人知道在哪里可以得到它并可以帮助我吗谢谢现在可以通过NuGet https nuget org packages System Linq Dynamic画廊也是
Node.js mongodb如何连接到mongo服务器的replicaset

我在用mongo and node js在一个应用程序中 mongo数据库由两台服务器组成在给出的例子中http howtonode org express mongodb http howtonode org express mongo
在LUA中调用Rest api端点

我需要从 Lua 脚本调用 Rest API 端点我怎样才能做到这一点例如我可以通过以下curl命令调用端点 curl X GET H X Parse Application Id ParseAppID H X Parse REST
NodeJS - SHA256 密码加密

我目前正在学习 NodeJS 中的加密和密码安全我正在使用当前使用 PBKDF2 的当前示例我想将其切换为使用 SHA256 这可能和或有意义吗我该怎么办呢 var crypto require crypto var len 128
ACTION_PICK 与 MediaStore.Images.Media.INTERNAL_CONTENT_URI 允许用户选择通过 picasa 同步的图像（不在设备上？）

我正在运行 ICS 并使用相同 Google 帐户的平板电脑和手机上测试我们的应用程序如果我在一台设备上拍照它将显示在另一台设备上通过 Picasa 同步奇怪的是当我执行正常操作时照片会显示在两个设备上 Intent inten
退出 root conda 环境

一旦我安装了 miniconda 我就永久处于 root miniconda 环境中例如 luc montblanc conda info envs conda environments bunnies home luc minicond
Imgur API 和 VB.NET 帮助 - Image POST

我正在尝试将图像发送到 Imgur 的服务器一切都很顺利我从解析器中获取了图像的 URL 但是当我尝试在网络浏览器上打开它时我没有得到图像只有一个损坏的图像图标我认为这是转换为字节数组的问题但我不明白请让我知道修复我的代
在 Servlet/JSP 中加载属性文件[重复]

这个问题在这里已经有答案了我创建了一个jar从我的Java project并想在一个JSP Servlet Project 我正在尝试加载一个属性文件比如说我的sample propertiesJSP Servlet Project保存
通过Webpack导入模块中的图片

我的应用程序使用 NodeJs webpack 和 ES2015 我似乎无法弄清楚如何在我的模块中导入图像以下不起作用 import css image t1 png 编辑根据 Sitian 的要求这是我的 webpack 配置 co
隐藏 SSRS 中的列

我正在使用 SSRS 2012 和 Excel 2010 我想在导出到 Excel 时隐藏一列在浏览了一些论坛后似乎最好的方法是转到您正在查找的内容的列或文本框隐藏并在可见性隐藏选项下将表达式设置为 IIF Globals R
Chicken计划中的命名空间

命名空间在 Chicken Scheme 中如何工作我现在正在使用parley鸡蛋当我定义一个名为例如的函数时read 由于名称冲突而导致错误实际上因为我的read覆盖parley s own read 并且以错误的类型调用它这是
使用 URL swift Alamofire 上传视频

我需要使用 alamofire 将视频上传到服务器用户选择视频我在 didFinishPickingMediaWithInfo 中成功获取 URL 如下所示 func imagePickerController picker UIIma
如何导入无法识别的日期时间格式的 CSV？

该表如下所示 CREATE TABLE dbo temptable id nvarchar 50 COLLATE SQL Latin1 General CP1 CI AS NOT NULL datetime datetime NOT NUL
合并 PDF 文件

是否可以使用 Python 合并单独的 PDF 文件假设是这样我需要进一步扩展一下我希望循环遍历目录中的文件夹并重复此过程我可能会碰碰运气但是否有可能排除每个 PDF 中包含的页面我的报告生成总是会创建一个额外的空白页面您可以

合并 PDF 文件

合并 PDF 文件 的相关文章

随机推荐

热门标签

合并 PDF 文件的相关文章