帮你自动化办公的python - 自动提取pdf指定页（项目概述）

2023-05-16

概述

身为一个苦逼的IT男，每天必不可少的就是要上网查资料，在网上总是经常能看到python、自动化办公、白领的福音之类的字眼，虽然自己主要做嵌入式方面的底层开发，每天也就是码码代码，也没多少办公文件需要我来处理，不过还是怀着好奇的心打算一探究竟。

背景

某一天，就跟正常的每一天一样的某一天，xxx给我发消息，说他们部门马上进入繁忙期，每个人都不能幸免，要开始拼命加班了，不明所以的我还以为他们接了什么大项目，后来一问才知道原来是他们公司把近几年所有同事的工资信息扫描录入一个pdf文件里面，而他们需要找到每个人的工资条并标注，然后单独提取出来放在一个新的pdf文件里面，由于员工的数量庞大，而且信息较多，所以需要动用大量的人力来完成。

听完之后，我这聪明好动的小脑袋马上就开始想了，不是python自动化办公这么牛吗，是不是这种时候就能体现出来了，既然如此,我是不是可以设计一个软件，自动化完成这一系列的工作呢？

思考

需求：设计软件之前第一步必须是分析需求，这一步重中之重，很多人不注重这一点，拿到项目马上就一股脑盲目的写代码，觉得自己灵感迸发，文思泉涌，如有神助，等到设计出来展示给用户，才发现原来这根本就不是用户想要的，悲哀的自己原来从一开始就走偏了，或者说是跑偏了。

既然需求这么重要，那么我们第一件事就是弄懂xxx的需求，经过反复向xxx求证，明确需求如下图所示：

总体来说，xxx需要做的有三件事。

1. 在原文档（包含所有员工工资信息，如上图的3月张三工资信息.pdf文件）中找到指定员工（张三）所在位置，并用特殊颜色（黄色）标记出来。

2. 将将文档中指定员工所在页（如上图中的第3页）外其它页全部删除。

3. 使用上面的规则完成所有员工的处理。

xxx也向我展示了一下她的文件目录，如下图所示：

文件结构还是比较简单，

1. 首先有一个根目录（工资信息），存放所有员工工资信息，不同员工之间以目录的方式分开存放，如张三、李四等。

2. 每个员工目录下，将每年的工资信息通过子目录分开存放。

3. 每年的目录下存放着员工当年的工资信息文档，文档以月份为单位，格式为pdf。

设计

整个项目软件设计围绕用户需求展开，大致完成三个功能；

1. 在文档中，找到指定用户，并标记。

2. 删除文档中指定用户所在页外的其它页。

3. 遍历处理所有员工。

技术点：

1. 解析pdf文档内容。

难点：pdf文档存储内容为扫描文件，解析相对比较麻烦。

思路：先将文档所有页转换为jpg格式，然后调用OCR软件解析图片，找到相关的信息。

实施：应用开源软件tesseract。

结果：由于扫描原因，很多内容清晰度并不高，解析效果显得并不理想，不过因为时间有限，也暂时没有时间研究其它的OCR软件，所以此功能暂时放弃。

2. 处理pdf文档。

调用PyPDF2实现对pdf文档的操作，不过该调用库处理pdf文档需要以页为单位，对于本项目也已经足够了。

3. 多文件处理。

调用os库，遍历指定文件夹下所有.pdf文件（注意：对于子目录，需要递归遍历），存储为列表，然后再进行循环处理即可。

4. ui界面

原计划打算调用pyqt5设计用户界面，不过发现项目功能太过单一，所以改用tkinter库搭建。

功能修改：

考虑到pdf文档解析的复杂性，以及项目时间的紧张的原因，最终将项目功能1交给用户实现，软件仅仅完成功能2和3，也正是因为项目只完成了提取页码的工作，所以被命名为《自动提取pdf指定页》。

项目实施：

1. 用户通过肉眼查找文档中指定员工位置，找到后标注，并修改文件名，在文件名前两位加上页码数字（用于后期软件判断），如下图所示。

2. 通过软件提取页码，删除文档其它页。

3. 遍历处理所有员工信息，查找部分交于用户，删除部分交由软件。

往期 · 推荐

也没想象中那么神秘的数据结构-一种通用化的双向链表设计（底层源码）

也没想象中那么神秘的数据结构-一环扣一环的“链表”（双向链表）

我用C语言玩对象，框架化的模板模式

我用C语言玩对象，偷偷关注着你的观察者模式（基类设计）

我用C语言玩对象，独一无二的单例模式

关注

更多精彩内容，请关注微信公众号：不只会拍照的程序猿，本人致力分享linux、设计模式、C语言、嵌入式、编程相关知识，也会抽空分享些摄影相关内容，同样也分享大量摄影、编程相关视频和源码，另外你若想要本文章源码请关注公众号：不只会拍照的程序猿，后台回复：PDF拆解源码，也可点击此处下载。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

帮你自动化办公的python - 自动提取pdf指定页（项目概述）的相关文章

Mac 连接显示器，外接显示器不出影像

1 现象转换头 xff0c 连接线已正确连接 xff1b 显示器电源等也亮 xff0c 且是已有视频信号的状态 xff1b 查看设置显示器 xff0c 里面也显示识别出已连接外接显示器 2 解决办法显示器支持的最高刷新率与系统设
idea多模块打包

多模块打包的办法有两个 1 在parent的pom下执行deploy 这样就会自动将父 pom以及子 module都发布到仓库在模块中添加如下选项 lt distributionManagement gt lt repository gt
Xcode 模拟器如何录屏

1 touch bar 录制图标有touch bar的MacBook xff0c 模拟器为当前最前窗口事 xff0c touch bar 上点击录制图标即可 xff1b 2 快捷键选中模拟器界面 xff0c command 43 R 3
iOS 组件中设置文件支持MRC

1 设置该文件的Compiler Flags 为 fno objc arc 使用cocopods 加载此组件时 xff0c 在 Pods 下的 Build Phases 中的 Compile Sources目录中找到想要设置的文件 xff
Null passed to a callee that requires a non-null argument 【iOS常见报错收集】

1 问题描述 xff1a xcode提示如下 xff1a 2 问题原因此处某参数未设置 Nullable xff0c 但是赋值了nil xff0c xcode自动提示防止nil导致异常 xff1b 3 解决办法将此处有可能传入nil的参
win10扩展EFI分区

Win10扩展EFI分区由于需要在Win10上安装Ubuntu18 04双系统 xff0c 硬盘格式为GPT xff0c 安装过程中需要将Ubuntu的引导分区设置Win10的EFI分区 xff0c 但是win10的EFI分区装系统时默认
桌面图标美化，图包分享

图标修改教程先放效果图 xff1a 直接进入正题 xff1a 此电脑网络回收站等 xff1a 桌面右键 gt 个性化 gt 主题 gt 相关的设置 gt 桌面图标设置应用等 xff1a 右键应用 gt 属性系统图标 xff0c 以
Spring注解原理的详细剖析与实现

一注解的基本概念和原理及其简单实用注解 xff08 Annotation xff09 提供了一种安全的类似注释的机制 xff0c 为我们在代码中添加信息提供了一种形式化得方法 xff0c 使我们可以在稍后某个时刻方便的使用这些数据 xf
Java实现集合的组合（从组合中取出K个元素进行组合的所有情况）

1 利用递归进行取出数据 span class hljs keyword public span static span class hljs subst lt span T span class hljs subst gt span sp
浅谈Dockerfile文件

DockerFile dockerfile是用来构建Docker镜像的构建文件 xff0c 是由一系列命令和参数构成的脚本 DockerFile构建过程解析 Dockerfile内容基础知识每条保留字指令都必须为大写字母且后面要跟随至少一
Java基础学习 100 问

Java基础学习 100 问来源 xff1a 赢在面试 xff08 Java知音 javascript void 0 x1f609 xff09 一 Java基础篇 1 一个 34 java 34 源文件中是否可以包括多个类 xff08 不
Windows下误删EFI分区重建引导简单教程

环境 xff1a windows10 xff0c 其余环境未经测试 EFI百度词条解释如下 xff1a EFI system partition ESP xff0c EFI 系统分区通常指数据存储介质中的一个分区 xff0c 通常用于硬盘或
maven导入本地jar包

最近看 https github com junicorn kira 实现的java的代码有个库发现没法使用maven安装 https mvnrepository com artifact com bladejava blade kit
TensorFlow入门教程(23)将图像超分辨率模型SRGAN移植到安卓APP(下)

作者 xff1a 韦访博客 xff1a https blog csdn net rookie wei 微信 xff1a 1007895847 添加微信的备注一下是CSDN的欢迎大家一起学习 1 概述上一讲我们将SRGAN模型由HDF5
（四）生产者消费者模式

xff08 一生产者消费者模式原理 xff1a 在一个系统中 xff0c 存在生产者和消费者两种角色 xff0c 他们通过内存缓冲区进行通信 xff0c 生产者生产消费者需要的资料 xff0c 消费者把资料做成产品生产消费者模式如下图
Ubuntu 18.04串口终端开机免密自动登录

Ubuntu 18 04串口终端开机免密自动登录 serial getty开机设置选项 ubuntu18 04已经不再使用initd管理系统改用systemd serial getty span class token comment v
NRF52840 用RTT打印log配置方法

1 在sdk config h中配置两个宏 xff1a NRF LOG ENABLED 1 NRF LOG BACKEND RTT ENABLED 1 2 需要初始化NRF LOG static void log init void ret
Unable to add window ，is your activity running?

Unable to add window xff0c is your activity running span class hljs label android view WindowManager BadTokenException s
Python爬虫爬取NBA数据

爬取的网站为 xff1a stat nba com xff0c 本文爬取的是NBA2016 2017赛季常规赛至2017年1月7日的数据改变url header和url tail即可爬取特定的其他数据源代码如下 xff1a coding
也没想象中那么神秘的数据结构-先来后到的“队列”（顺序队列）

概念队列是一种特殊的线性表 xff0c 特殊之处在于它只允许在表的前端 xff08 front xff09 进行删除操作 xff0c 而在表的后端 xff08 rear xff09 进行插入操作 xff0c 和栈一样 xff0c 队列是一

随机推荐

也没想象中那么神秘的数据结构-后来居上的“栈”

概念数据结构是计算机存储组织数据的方式数据结构是指相互之间存在一种或多种特定关系的数据元素的集合通常情况下 xff0c 精心选择的数据结构可以带来更高的运行或者存储效率数据结构往往同高效的检索算法和索引技术有关栈作为一种数据结构
我用C语言玩对象，独一无二的单例模式

概念单例模式 xff08 Singleton Pattern xff09 是最简单的设计模式之一这种类型的设计模式属于创建型模式 xff0c 它提供了一种创建对象的最佳方式这种模式涉及到一个单一的类 xff0c 该类负责创建自己的对象
也没想象中那么神秘的数据结构-先来后到的“队列”（循环队列）

概念关于队列的相关内容 xff0c 在之前的文章已经详细介绍过了 xff0c 请参见也没想象中那么神秘的数据结构先来后到的队列 xff08 顺序队列 xff09 xff0c 本文主要将循环队列相关内容循环队列 xff1a 在顺序队
python webkit 异步抓取页面数据

usr bin python from ghost import Ghost class FetcherCartoon def getCartoonUrl self url if url is None return false todo
我用C语言玩对象，观察者模式应用2-热水的用途

概述观察者模式让多个观察者对象同时监听某一个主题对象这个主题对象在状态变化时 xff0c 会通知所有的观察者对象 xff0c 使他们能够自动更新自己之前的文章已经详细阐述了这种设计模式的核心和注意事项 xff0c 并完成了基类设计 x
我用C语言玩对象，状态应用2-MP3

概述状态模式允许一个对象在其内部状态改变时改变它的行为 xff0c 对象看起来似乎修改了它的类之前的文章已经详细阐述了这种设计模式的核心和注意事项 xff0c 并完成了基类设计 xff0c 请参见 C语言状态模式 xff08 基类部分
我用C语言玩对象，状态模式应用1-水的三态

概述状态模式允许一个对象在其内部状态改变时改变它的行为 xff0c 对象看起来似乎修改了它的类之前的文章已经详细阐述了这种设计模式的核心和注意事项 xff0c 并完成了基类设计 xff0c 请参见 C语言状态模式 xff08 基类部分
也没想象中那么神秘的数据结构-后来居上的“栈”（链栈）

概念关于栈的相关内容 xff0c 在之前的文章已经详细介绍过了 xff0c 请参见也没想象中那么神秘的数据结构后来居上的栈 xff0c 本文主要将链栈相关内容链式栈 xff1a 采用链式储存结构的栈 xff0c 使用单链表来实现
也没想象中那么神秘的数据结构-一环扣一环的“链表”（双链表）

概念双链表也叫双向链表 xff0c 是链表的一种 xff0c 它的每个数据结点中都有两个指针 xff0c 分别指向直接后继和直接前驱所以 xff0c 从双向链表中的任意一个结点开始 xff0c 都可以很方便地访问它的前驱结点和后继结点
也没想象中那么神秘的数据结构-先来后到的“队列”（链式队列）

概念关于队列的相关内容 xff0c 在之前的文章已经详细介绍过了 xff0c 请参见也没想象中那么神秘的数据结构先来后到的队列 xff08 顺序队列 xff09 xff0c 本文主要将链式队列相关内容链式队列 xff1a 链式队列
我用C语言玩对象，框架化的模板模式

概念模板模式 xff08 Template Pattern xff09 模式 xff1a 属于行为型模式 xff0c 对于某一个业务逻辑 xff08 算法实现 xff09 在不同的对象中有不同的细节实现 xff0c 但是整体处理算法逻辑
也没想象中那么神秘的数据结构-一环扣一环的“链表”（单链表）

概念单链表是一种链式存取的数据结构 xff0c 用一组地址任意的存储单元存放线性表中的数据元素链表中的数据是以结点来表示的 xff0c 每个结点的构成 xff1a 元素数据元素的映象 43 指针指示后继元素存储位置 xff0c 元素
我用C语言玩对象，偷偷关注着你的观察者模式（基类设计）

概念观察者模式 xff08 又被称为发布订阅 xff08 Publish Subscribe xff09 模式 xff0c 属于行为型模式的一种 xff0c 它定义了一种一对多的依赖关系 xff0c 让多个观察者对象同时监听某一个主题对
也没想象中那么神秘的数据结构-一环扣一环的“链表”（循环双链表）

概念循环双向链表是一种更复杂的数据结构类型 xff0c 是双向链表的一种特殊形式 xff0c 主要用来解决一些搜索问题 xff0c 特别是搜索尾节点以及链表翻转输出等问题和双向链表不同的是 xff0c 链表中任何节点均不含NULL x
Spring基础配置

Spring框架的四大原则 xff1a 使用POJO进行轻量级和最小侵入式开发通过依赖注入和基于接口编程实现松耦合通过AOP和默认习惯进行声明式编程使用AOP和模板 xff08 template xff09 减少模式化代码对四大原则的理解
也没想象中那么神秘的数据结构-一种通用化双向链表设计（底层源码）

概述在操作系统内核中 xff0c 绝大多数数据结构都是通过链表来实现的 xff0c 相对于数组 xff0c 链表可以很方便的用来管理数据 xff0c 给数据管理带来了更多的可能性注意 1 不论是linux vxWorks还是其它操作系统
我用C语言玩对象，观察者模式应用1-订报

概述观察者模式让多个观察者对象同时监听某一个主题对象这个主题对象在状态变化时 xff0c 会通知所有的观察者对象 xff0c 使他们能够自动更新自己之前的文章已经详细阐述了这种设计模式的核心和注意事项 xff0c 并完成了基类设计 x
也没想象中那么神秘的数据结构-一种通用化双向链表设计（对象设计）

概述在操作系统内核中 xff0c 绝大多数数据结构都是通过链表来实现的 xff0c 相对于数组 xff0c 链表可以很方便的用来管理数据 xff0c 给数据管理带来了更多的可能性之前的文章也没想象中那么神秘的数据结构一种通用化双向链
也没想象中那么神秘的数据结构-一种通用化双向链表设计（测试例程）

概述本文作为也没想象中那么神秘的数据结构一种通用化双向链表设计系列最后一篇 xff0c 主要用于验证底层源码和对象设计的源码正确性 xff0c 另外也向用户展示通用链表类的使用方法示例结合也没想象中那么神秘的数据结构一种通用
帮你自动化办公的python - 自动提取pdf指定页（项目概述）

概述身为一个苦逼的IT男 xff0c 每天必不可少的就是要上网查资料 xff0c 在网上总是经常能看到python 自动化办公白领的福音之类的字眼 xff0c 虽然自己主要做嵌入式方面的底层开发 xff0c 每天也就是码码代码 xff0

帮你自动化办公的python - 自动提取pdf指定页（项目概述）

概述

背景

思考

设计

往期 · 推荐

关注

帮你自动化办公的python - 自动提取pdf指定页（项目概述） 的相关文章

随机推荐

热门标签

帮你自动化办公的python - 自动提取pdf指定页（项目概述）的相关文章