圣才电子书怎么提取pdf_PDF处理经验分享

2023-05-16

案例效果预览:

使用到的工具有:PdfPatcher,Adobe Acrobat,ComicEnhancerPro,Freepic2Pdf,PDFXEdit,ABBYY Finereader 14OCR编辑器。

无图PDF的处理

1.利用PdfPatcher提取文档内图片

如果发现提取出图片不正常(如全黑),文件名混乱,或多页使用同一图片等情况,可以考虑使用Adobe Acrobat的另存为图片功能。

2.使用ComicEnhancerPro对提取图片进行处理

此软件有很多设置选项,这里仅对个人常用的几处进行讲解:

其他-色彩-色彩数:我处理电子书的第一部就是将这里设置为纯黑白,这是关键的一部,此步作用为将图片二值化,缩小图片存储大小,提高文字锐度。

其他-色彩-去斑直径:消除指定像素大小以下的黑点。

其他-色彩-去除与边缘接触的黑色区域:去除图片黑边。

其他-色彩-边缘去毛刺:使内容显示更柔和。

曲线-设置:调整图片的颜色和色调,我一般最后才拉微调曲线。

缩放:顾名思义,调整图片分辨率,个人一般拉到120%

其他-调节-高斯模糊半径和高斯锐化半径:这两处滑块可以同步拖动,如拉高了模糊半径,就拉高点锐化半径看看效果。

USM锐化:一种锐化图片边缘的技术,一般我将遍数设置为3,数量随意拉到165左右,半径随意拉到35左右就不再更改,然后拖动阈值直到达到满意效果。

文件-批量转换:完成以上步骤就可以批量转换了,注意保存扩展名要选择位图格式tif。

3.使用Freepic2Pdf将转换成功的图片合并为Pdf

(完)

PDF内图片内容的处理

1.走一遍无图PDF的处理流程

2.使用ABBYY Finereader 14OCR编辑器提取PDF的图片内容

部分不能精准识别需要手动框选,之后以html格式保存。嫌识别速度慢的可以设置为仅识别图片。

3.使用PDFXEdit将图片一张一张覆盖到处理过的PDF里。

CtrlCV即可,因为保存的图片排序和原始文档的顺序一样,此步实际耗时不多。

(完)

视频

其实上面截图来自我录的一个十几分钟的视频,讲解要比上面详细很多。有时间剪剪发到b站吧。

(完)

最后,放一下开头案例的设置参数。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

圣才电子书怎么提取pdf_PDF处理经验分享 的相关文章

随机推荐