圣才电子书怎么提取pdf_PDF处理经验分享

2023-05-16

案例效果预览：

使用到的工具有：PdfPatcher，Adobe Acrobat，ComicEnhancerPro，Freepic2Pdf，PDFXEdit，ABBYY Finereader 14OCR编辑器。

无图PDF的处理

1.利用PdfPatcher提取文档内图片

如果发现提取出图片不正常（如全黑），文件名混乱，或多页使用同一图片等情况，可以考虑使用Adobe Acrobat的另存为图片功能。

2.使用ComicEnhancerPro对提取图片进行处理

此软件有很多设置选项，这里仅对个人常用的几处进行讲解：

其他-色彩-色彩数：我处理电子书的第一部就是将这里设置为纯黑白，这是关键的一部，此步作用为将图片二值化，缩小图片存储大小，提高文字锐度。

其他-色彩-去斑直径：消除指定像素大小以下的黑点。

其他-色彩-去除与边缘接触的黑色区域：去除图片黑边。

其他-色彩-边缘去毛刺：使内容显示更柔和。

曲线-设置：调整图片的颜色和色调，我一般最后才拉微调曲线。

缩放：顾名思义，调整图片分辨率，个人一般拉到120%

其他-调节-高斯模糊半径和高斯锐化半径：这两处滑块可以同步拖动，如拉高了模糊半径，就拉高点锐化半径看看效果。

USM锐化：一种锐化图片边缘的技术，一般我将遍数设置为3，数量随意拉到165左右，半径随意拉到35左右就不再更改，然后拖动阈值直到达到满意效果。

文件-批量转换：完成以上步骤就可以批量转换了，注意保存扩展名要选择位图格式tif。

3.使用Freepic2Pdf将转换成功的图片合并为Pdf

(完）

PDF内图片内容的处理

1.走一遍无图PDF的处理流程

2.使用ABBYY Finereader 14OCR编辑器提取PDF的图片内容

部分不能精准识别需要手动框选，之后以html格式保存。嫌识别速度慢的可以设置为仅识别图片。

3.使用PDFXEdit将图片一张一张覆盖到处理过的PDF里。

CtrlCV即可，因为保存的图片排序和原始文档的顺序一样，此步实际耗时不多。

（完）

视频

其实上面截图来自我录的一个十几分钟的视频，讲解要比上面详细很多。有时间剪剪发到b站吧。

（完）

最后，放一下开头案例的设置参数。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

圣才电子书怎么提取pdf_PDF处理经验分享的相关文章

python实现登录抓取_[Python]网络爬虫（五）：利用POST方式登录账号抓取

今天的工作很有意思我们用 Python 来登录网站用Cookies记录登录信息然后就可以抓取登录之后才能看到的信息今天我们拿知乎网来做示范为什么是知乎这个很难解释但是肯定的是知乎这么大这么成功的网站完全不用我来帮他打广告知乎
linux tcp ip c,Linux下TCP/IP编程--TCP实战(select)

本文参考自徐晓鑫后台开发 xff0c 记录之一为什么要使用非阻塞I O之select 初学socket的人可能不爱用select写程序 xff0c 而习惯诸如connect accept recv recvfrom这样的阻塞程序当让
串口485接法图_rs485接口接线方法

展开全部 RS485采用差分信号负逻辑 xff0c 43 2V xff5e 43 6V表示 0 xff0c 6V xff5e 2V表示 1 62616964757a686964616fe4b893e5b19e31333365643661RS
can帧格式 dlc_CAN帧格式（标准帧、拓展帧）

来源 xff1a https www cnblogs com fengliu p 9277165 html CAN2 0B标准帧 CAN 标准帧信息为11个字节 xff0c 包括两部分 xff1a 信息和数据部分前3个字节为信息部分位置
c++发送soap协议报文_软件间对接时，常用的接口类型及协议有哪些？

软件系统之间的接口是实现一个系统跟另外系统进行信息交互的桥梁 xff0c 接口一般分为两种 xff1a 程序内部的接口和系统对外的接口软件接口的通常分为两类 xff1a webservice接口和http api接口 xff1a webS
RGB彩色图、Depth深度图

x1f4a6 彩色图 xff0c 深度图信息缺乏如 xff0c 颜色相近导致位置信息丢失 x1f4a6 深度图相近深度的物体 xff0c 因为颜色或纹理的丢失 xff0c 导致难区分深度图并不可以直接使用 xff0c 因为深度图只能
超声换能器的原理及设计_超声波焊接机模具的原理与设计（二）

一只焊头的使用寿命关键决定于两个方面 xff1a 材料工艺材料方面 xff1a 超声波焊接要求金属材料有柔顺性好声波传递过程中机械损耗小好的特点 xff0c 所以最常用的材料为铝合金及钛合金 xff0c 材料是保证超声波模具寿命于熔
request python_Python request使用方法及问题总结

一总结说明模拟postman访问接口 xff0c 具体参照七 python接口开发 xff08 二 xff09 gt gt 三 postman访问接口本篇文章调用的接口 xff0c 也是来自于接口开发的源码 xff0c 阅读本篇文章最
rtk定位权限_RTK定位原理概述

精品文档一 RTK 定位原理概述 RTK 测量利用的是载波相位差分 GPS 技术来实时定位的 xff0c 正是凭借差分改正和载波相位测距两种测量方法才使得动态定位的精度可以达到厘米级差分 GPS 技术是利用了基准站与流动站之间空间的
给视频加字幕HTML代码,给Html5视频播放器添加字幕

现在各种支持HTML5的浏览器都能够播放html5视频了 xff0c 但是对于字幕的支持却很少 xff0c 我们期待像DVD那样强大的字幕往往我们还不得不通过js来做 xff0c 着实是一件痛苦的事情现在IE10率先对HTML5 Vid
cmake 指定头文件路径_CMake教程（一）

CMake官方文档 xff1a https cmake org cmake help v3 17 guide tutorial index html adding system introspection step 5 CMake的优点高
Adam优化器

Adam优化算法是一种对随机梯度下降法的扩展简单来说 xff0c Adam是带动量的梯度下降算法和RMSProp算法的结合对梯度的一阶矩估计 xff08 First Moment Estimation xff0c 即梯度的均值 xff0
C++输入至回车结束

之前比赛被这个小问题难住了 xff0c 好坑啊其实很简单 xff1a while cin gt gt a if cin get 61 61 39 n 39 break 举例 xff1a include lt bits stdc 43 43
c语言单片机串口通讯,单片机C语言之串口通信协议

串口通信概述串口通信指串口按位 bit 发送和接收字节尽管比按字节 byte 的并行通信慢 xff0c 但是串口可以在使用一根线发送数据的同时用另一根线接收数据常用三种串口通信协议 1 RS 232 RS 232 ANSI EIA 2
51单片机如何跳出wile循环_单片机C语言之串口通信协议（代码分享）

原标题 xff1a 单片机C语言之串口通信协议代码分享现实生活中 xff0c 我们总是要与人打交道 xff0c 互通有无单片机也一样 xff0c 需要跟各种设备交互例如汽车的显示仪表需要知道汽车的转速及电动机的运行参数 xff0c
http协议get方法服务器,解析HTTP协议六种请求方法

1 GET 2 HEAD 3 PUT 4 DELETE 5 POST 6 OPTIONS 抛砖引玉 xff0c 聊下概念性的东西先 xff1a HTTP协议 Hyper Text Transfer Protocol HTTP是一个基于TCP
c语言printf输出带符号,输出字符串用什么符号-C语言怎么用printf输出字符串。

C语言怎么用printf输出字符串 void main unsigned char x 61 34 ab sdf sad 23432 cc 34 data 61 x printf 34 data 61 c n 34 data printf
postman需要激活吗_1-3 Postman 注册账号与登录

1 为什么要注册postman账号注册postman账号是免费的当注册并登陆一个postman账号后 xff0c 用户可以获得如下权限 1 同步和备份历史 xff0c 集合 xff0c 环境 xff0c 和预置头 2 可以轻松的处理来自
C语言h文件可以定义变量吗,C语言h文件头中的变量初始化

很多时候 xff0c C程序员需要在文件头中初始化变量 xff0c 如果没有好的宏定义方式 xff0c 往往会导致多个文件引用时 xff0c 出现大量编译错误以下C文件头定义方式 xff0c 可以很好避免这些错误出现 xff1a 1 编
有的歌声音大有的歌声音小_一招搞定，动圈麦克风录音/直播，声音小的问题...

子 xff0c 曾曰过 xff1a 一分钱 xff0c 一分货 xff0c 便宜没好货鲁迅先生却教导我们说 xff1a 贵的 xff0c 不一定就是对的比如 xff0c 某宝热卖的专业录音直播套装 xff1a 雅马哈AG03声卡 xf

随机推荐

static

存储类定义 C 43 43 程序中变量函数的范围 xff08 可见性 xff09 和生命周期一般存储类都是auto static存储类和auto的区别是 xff1a 1 局部变量生命周期改变成程序生命周期 2 全局变量的作用域在本文件内
ubuntu命令行启动浏览器_如何在Ubuntu命令行下管理浏览器书签

浏览器书签虽然不常被提及 xff0c 但是作为互联网浏览的一部分没有好的书签功能 xff0c 网站链接可能会丢失 xff0c 下次再不能访问这就是为什么一个好的书签管理器很重要所有的现代浏览器都提供了一些形式的管理工具 xff0c 虽
python如何使用session和cookie_python中requests模拟登录的三种方式(携带cookie/session进行请求网站)...

一 xff0c cookie和session的区别 cookie在客户的浏览器上 xff0c session存在服务器上 cookie是不安全的 xff0c 且有失效时间 session是在cookie的基础上 xff0c 服务端设置ses
【05】nn.Module模块使用

1 nn Module模块使用 nn Module是对所有神经网络提供一个基本的类我们的神经网络是继承nn Module这个类 xff0c 即nn Module为父类 xff0c nn Module为所有神经网络提供一个模板 xff0c
c语言累加和校验_累加和校验算法（CheckSum算法）

因为外界总会对电路存在或多或少的干扰 xff0c 对于数字信号 xff0c 很可能导致传输的数据出现千差万别对于很多需要传输数据的场合 xff0c 尤其是一些数据可能会影响一些硬件的动作诸如嵌入式的一些设备机器人等 xff0c 错误的
studio one 3 机架声道设置_雅马哈UR242声卡宿主机架直播跳线设置

雅马哈 Yamaha UR242声卡搭载宿主机架做直播或实时K歌 xff0c 有两个方案 xff0c 1 使用雅马哈UR242声卡内置的DSP效果器 xff0c 并开启内录功能 xff0c 这个不需要机架 xff0c 直接在雅马哈UR242
公文字体字号标准2020_公文排版常识

公文页边距一般如何设置上37mm 下35mm 左28mm 右26mm详公文版式按照党政机关公文格式国家标准执行公文用纸采用国际A4型纸幅面尺寸210mm 297mm 天头上白边为37mm 1mm 订口左白边为28mm 1
提取某一个镇的行政边界_高德地图api获取行政边界矢量方法

高德地图api获取行政边界矢量方法发布时间 xff1a 2018 09 07 17 51 浏览次数 xff1a 2170 标签 xff1a api 1 获取高德地图web服务key 2 行政区域查询API服务地址 xff1a https
matlab上机绘图实验心得,matlab实验心得总结

matlab实验心得总结由会员分享 xff0c 可在线阅读 xff0c 更多相关 matlab实验心得总结 2页珍藏版请在人人文库网上搜索 1 通过matlab仿真实验使我学习掌握了许多知识首先是对matlab有了一个全新的认识 xf
计算机无法安装u盘驱动,Win7提示“无法成功安装设备驱动程序”，解决无法安装USB驱动程序的问题！...

在许多情况下 xff0c 计算机无法正常使用USB闪存驱动器 xff0c 并且这并不总是操作系统的问题许多单位需要计算机安全性和信息保密性他们通常通过注册表禁用USB接口 xff0c 通过注册表禁用USB闪存驱动器 xff0c 并屏蔽U
天思 t8 服务器没有文件信息,天思T8标准版用户手册.pdf

天思T8标准版用户手册天思 T8 管理系统标准版天思 T8 企业管理系统用户手册标准版天思软件集团天思集团第 1 页天思 T8 管理系统标准版著作权声明天思 T8 软件已在国家版权局注册了著
ajax 跨域请求 before,前后端分离，ajax跨域请求，2次请求

参考 https blog csdn net charleslei article details 51906635 https blog csdn net kejmln article details 51350777 开发过程中 xff
app的ajax请求数据,ajax请求从app engine获取数据

为noob问题提前道歉您好 xff0c 如何使用jQuery ajax从appengine服务器的Python端获取数据 xff1f 我知道如何使用ajax和适当的处理程序将数据发送到服务器 xff0c 但我想知道是否有人可以告诉我aja
c++primer plus和c++primer区别_C++ Primer第十章言

来源 xff1a 牛客网作者 xff1a 苍井玛利亚 C 43 43 Primer 泛型算法我们前一章学习了容器 xff0c 不知道你有没有发现 xff0c 其实容器是一个模板类 xff0c 就是说在类的上面还有一层 xff0c 看下面这
PointNetGPD代码复现

0 安装分析 ps 应该安装pcl1 9 43 tk8 1 这个导致后面python pcl改了配置 Ubuntu版本pcl版本vtk版本18 041 9 18 2 0 1 pcl1 9安装 1 1 安装依赖 sudo apt get up
python调用命令行并实时显示返回值_python中subprocess.Popen执行命令并持续获取返回值...

先举一个Android查询连接设备的命令来看看Python中subprocess Popen怎么样的写法用到的命令为 adb devices import subprocess order 61 39 adb devices 39 获取连
地铁供电系统原理图_高铁、地铁、火车供电工作原理

其实简单点说和电力如何给你家提供电力途径是一样的 xff0c 都绕不开输配电只不过家庭用电 xff0c 输配电都是国家电网给干了个人理解 xff0c 铁路供电系统中 xff0c 供电部门铁路局的供电段和地铁的机电中心负责了配电部分
python元组添加元素_Python数据类型之元组

1 元组的定义 xff1a 元组的创建只需要在括号中添加元素即可创建元组 xff0c 元素之间是有逗号分隔开元组与列表相似 xff0c 不同之处在于列表是可变对象 xff0c 而元素是不可变对象 xff0c 即元组一旦创建之后 x
flexnet licensing service下载_Abaqus 2016 软件下载地址及安装教程

目前100000 43 人已关注加入龙跃系统软件介绍名称 xff1a Abaqus 2016 64位大小 xff1a 5GB 语言 xff1a 简体中文安装环境 xff1a Win7 Win8 Win10 ABAQUS 是一套功能强
圣才电子书怎么提取pdf_PDF处理经验分享

案例效果预览 xff1a 使用到的工具有 xff1a PdfPatcher xff0c Adobe Acrobat xff0c ComicEnhancerPro xff0c Freepic2Pdf xff0c PDFXEdit xff0c

热门标签