Python实例详解pdfplumber读取PDF写入Excel

2023-05-16

一、Python操作PDF 13大库对比

PDF(Portable Document Format)是一种便携文档格式,便于跨操作系统传播文档。PDF文档遵循标准格式,因此存在很多可以操作PDF文档的工具,Python自然也不例外。

Python操作PDF模块对比图如下:

本文主要介绍pdfplumber专注PDF内容提取,例如文本(位置、字体及颜色等)和形状(矩形、直线、曲线),还有解析表格的功能。

二、pdfplumber模块

其他几个 Python 库帮助用户从 PDF 中提取信息。作为一个广泛的概述,pdfplumber它通过结合以下功能将自己与其他 PDF 处理库区分开来:

  • 轻松访问有关每个 PDF 对象的详细信息
  • 用于提取文本和表格的更高级别、可自定义的方法
  • 紧密集成的可视化调试
  • 其他有用的实用功能,例如通过裁剪框过滤对象

1. 安装

cmd控制台输入:

1

pip install pdfplumber

导包:

1

import pdfplumber

案例PDF截图(两页未截全):

2. 加载PDF

读取PDF代码:pdfplumber.open("路径/文件名.pdf", password = "test", laparams = { "line_overlap": 0.7 })

参数解读:

  • password :要加载受密码保护的 PDF,请传递password关键字参数
  • laparams:要将布局分析参数设置为pdfminer.six的布局引擎,请传递laparams关键字参数

案例代码:

1

2

3

import pdfplumberwith pdfplumber.open("./1.pdf") as pdf:

    print(pdf)

    print(type(pdf))

输出结果:

1

<pdfplumber.pdf.PDF object at 0x000001A56C323DC0><class 'pdfplumber.pdf.PDF'>

3. pdfplumber.PDF类

pdfplumber.PDF类表示单个 PDF,并具有两个主要属性:

属性说明
.metadata从PDF的Info中获取元数据键 /值对字典。 通常包括“ CreationDate”,“ ModDate”,“ Producer”等。
.pages返回一个包含pdfplumber.Page实例的列表,每一个实例代表PDF每一页的信息

1. 读取PDF文档信息(.metadata

1

2

import pdfplumberwith pdfplumber.open("./1.pdf") as pdf:

    print(pdf.metadata)

运行结果:

1

{'Author': 'wangwangyuqing', 'Comments': '', 'Company': '', 'CreationDate': "D:20220330113508+03'35'", 'Creator': 'WPS 文字', 'Keywords': '', 'ModDate': "D:20220330113508+03'35'", 'Producer': '', 'SourceModified': "D:20220330113508+03'35'", 'Subject': '', 'Title': '', 'Trapped': 'False'}

2. 输出总页数

1

2

import pdfplumberwith pdfplumber.open("./1.pdf") as pdf:

    print(len(pdf.pages))

运行结果:

1

2

4. pdfplumber.Page类

pdfplumber.Page类是pdfplumber整个的核心,大多数操作都围绕这个类进行操作,它具有以下几个属性:

属性说明
.page_number顺序页码,从1第一页开始,从第二页开始2,依此类推。
.width页面的宽度。
.height页面的高度。
.objects/.chars/.lines/.rects/.curves/.figures/.images这些属性中的每一个都是一个列表,每个列表包含一个字典,用于嵌入页面上的每个此类对象。有关详细信息,请参阅下面的“对象”。

常用方法如下

方法名说明
.extract_text()用来提页面中的文本,将页面的所有字符对象整理为的那个字符串
.extract_words()返回的是所有的单词及其相关信息
.extract_tables()提取页面的表格
.to_image()用于可视化调试时,返回PageImage类的一个实例
.close()默认情况下,Page对象缓存其布局和对象信息,以避免重新处理它。但是,在解析大型 PDF 时,这些缓存的属性可能需要大量内存。您可以使用此方法刷新缓存并释放内存。

1. 读取第一页宽度、高度等信息

1

2

3

4

5

6

7

8

import pdfplumberwith pdfplumber.open("./1.pdf") as pdf:

    first_page = pdf.pages[0]  # pdfplumber.Page对象的第一页

    # 查看页码

    print('页码:', first_page.page_number)

    # 查看页宽

    print('页宽:', first_page.width)

    # 查看页高

    print('页高:', first_page.height)

运行结果:

1

页码: 1页宽: 595.3页高: 841.9

2. 读取文本第一页

1

2

3

4

import pdfplumberwith pdfplumber.open("./1.pdf") as pdf:

    first_page = pdf.pages[0]  # pdfplumber.Page对象的第一页

    text = first_page.extract_text()

    print(text)

运行结果:

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

店铺名 价格 销量 地址

小罐茶旗舰店 449 474 安徽

零趣食品旗舰店 6.9 60000 福建

天猫超市 1304 3961 上海

天猫超市 139 25000 上海

天猫超市 930 692 上海

天猫超市 980 495 上海

天猫超市 139 100000 上海

三只松鼠旗舰店 288 25000 安徽

红小厨旗舰店 698 1767 北京

三只松鼠旗舰店 690 15000 安徽

一统领鲜旗舰店 1098 1580 上海

新大猩食品专营9.8 7000 湖南.......舰店

蟹纳旗舰店 498 1905 上海

三只松鼠坚果at茶 188 35000 安徽

嘉禹沪晓旗舰店 598 1517 上海

3. 读取表格第一页

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

import pdfplumberimport xlwtwith pdfplumber.open("1.pdf") as pdf:

    page_one = pdf.pages[0]  # PDF第一页

    table_1 = page_one.extract_table()  # 读取表格数据

    # 1. 创建Excel表对象

    workbook = xlwt.Workbook(encoding='utf8')

    # 2. 新建sheet表

    worksheet = workbook.add_sheet('Sheet1')

    # 3. 自定义列名

    col1 = table_1[0]

    # print(col1)# ['店铺名', '价格', '销量', '地址']

    # 4. 将列属性元组col写进sheet表单中第一行

    for i in range(0, len(col1)):

        worksheet.write(0, i, col1[i])

    # 5. 将数据写进sheet表单中

    for i in range(0, len(table_1[1:])):

        data = table_1[1:][i]

        for j in range(0, len(col1)):

            worksheet.write(i + 1, j, data[j])

    # 6. 保存文件分两种格式

    workbook.save('test.xls')

运行结果:
 

三、实战操作

1. 提取单个PDF全部页数

测试代码:

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

import pdfplumberimport xlwtwith pdfplumber.open("1.pdf") as pdf:

    # 1. 把所有页的数据存在一个临时列表中

    item = []

    for page in pdf.pages:

        text = page.extract_table()

        for i in text:

            item.append(i)

    # 2. 创建Excel表对象

    workbook = xlwt.Workbook(encoding='utf8')

    # 3. 新建sheet表

    worksheet = workbook.add_sheet('Sheet1')

    # 4. 自定义列名

    col1 = item[0]

    # print(col1)# ['店铺名', '价格', '销量', '地址']

    # 5. 将列属性元组col写进sheet表单中第一行

    for i in range(0, len(col1)):

        worksheet.write(0, i, col1[i])

    # 6. 将数据写进sheet表单中

    for i in range(0, len(item[1:])):

        data = item[1:][i]

        for j in range(0, len(col1)):

            worksheet.write(i + 1, j, data[j])

    # 7. 保存文件分两种格式

    workbook.save('test.xls')

运行结果(上面得没截全):
 

2. 批量提取多个PDF文件

测试代码:

import pdfplumber

import xlwt

import os

 

# 一、获取文件下所有pdf文件路径

file_dir = r'E:\Python学习\pdf文件'

file_list = []

for files in os.walk(file_dir):

    # print(files)

    # ('E:\\Python学习\\pdf文件', [],

    #  ['1.pdf', '1的副本.pdf', '1的副本10.pdf', '1的副本11.pdf', '1的副本2.pdf', '1的副本3.pdf', '1的副本4.pdf', '1的副本5.pdf', '1的副本6.pdf',

    #   '1的副本7.pdf', '1的副本8.pdf', '1的副本9.pdf'])

    for file in files[2]:

        # 以. 进行分割如果后缀为PDF或pdf就拼接地址存入file_list

        if file.split(".")[1] == 'pdf' or file.split(".")[1] == 'PDF':

            file_list.append(file_dir + '\\' + file)

 

# 二、存入Excel

# 1. 把所有PDF文件的所有页的数据存在一个临时列表中

item = []

for file_path in file_list:

    with pdfplumber.open(file_path) as pdf:

        for page in pdf.pages:

            text = page.extract_table()

            for i in text:

                item.append(i)

 

# 2. 创建Excel表对象

workbook = xlwt.Workbook(encoding='utf8')

# 3. 新建sheet表

worksheet = workbook.add_sheet('Sheet1')

# 4. 自定义列名

col1 = item[0]

# print(col1)# ['店铺名', '价格', '销量', '地址']

# 5. 将列属性元组col写进sheet表单中第一行

for i in range(0, len(col1)):

    worksheet.write(0, i, col1[i])

# 6. 将数据写进sheet表单中

for i in range(0, len(item[1:])):

    data = item[1:][i]

    for j in range(0, len(col1)):

        worksheet.write(i + 1, j, data[j])

# 7. 保存文件分两种格式

workbook.save('test.xls')

运行结果(12个文件,一个文件50行总共600行):
 

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

Python实例详解pdfplumber读取PDF写入Excel 的相关文章

  • 【Scala】使用Option、Some、None,避免使用null

    避免null使用 大多数语言都有一个特殊的关键字或者对象来表示一个对象引用的是 无 xff0c 在Java xff0c 它是null 在Java 里 xff0c null 是一个关键字 xff0c 不是一个对象 xff0c 所以对它调用任何
  • 【Linux】使用update-alternatives命令进行版本的切换

    引言 在Debian系统中 xff0c 我们可能会同时安装有很多功能类似的程序和可选配置 xff0c 可能会出现同一软件的多个版本并存的场景 比如像是一些编程语言工具 xff0c 一些系统中自带的是python2 6 xff0c 而现在py
  • stm32G0 启动

    目的 STM32G是意法半导体这两年新推出的系列芯片 xff0c 相比原先的F系列的芯片有很多提升点 xff0c 将来必将取代F系列芯片的地位 对于新芯片的应用来说能够正确下载与运行程序是比较重要的一点 xff0c 这篇文章将对 STM32
  • 【scikit-learn】交叉验证及其用于参数选择、模型选择、特征选择的例子

    xfeff xfeff 内容概要 训练集 测试集分割用于模型验证的缺点K折交叉验证是如何克服之前的不足交叉验证如何用于选择调节参数 选择模型 选择特征改善交叉验证 1 模型验证回顾 进行模型验证的一个重要目的是要选出一个最合适的模型 xff
  • 【scikit-learn】网格搜索来进行高效的参数调优

    xfeff xfeff 内容概要 如何使用K折交叉验证来搜索最优调节参数如何让搜索参数的流程更加高效如何一次性的搜索多个调节参数在进行真正的预测之前 xff0c 如何对调节参数进行处理如何削减该过程的计算代价 1 K折交叉验证回顾 交叉验证
  • 【scikit-learn】评估分类器性能的度量,像混淆矩阵、ROC、AUC等

    xfeff xfeff 内容概要 模型评估的目的及一般评估流程分类准确率的用处及其限制混淆矩阵 xff08 confusion matrix xff09 是如何表示一个分类器的性能混淆矩阵中的度量是如何计算的通过改变分类阈值来调整分类器性能
  • 【Scala-ML】使用Scala构建机器学习工作流

    引言 在这一小节中 xff0c 我将介绍基于数据 xff08 函数式 xff09 的方法来构建数据应用 这里会介绍monadic设计来创建动态工作流 xff0c 利用依赖注入这样的高级函数式特性来构建轻便的计算工作流 建模过程 在统计学和概
  • 【Scala】响应式编程思想

    何为响应式编程 响应式编程是一种面向数据流和变化传播的编程范式 xff0c 数据更新是相关联的 这意味着可以在编程语言中很方便地表达静态或动态的数据流 xff0c 而相关的计算模型会自动将变化的值通过数据流进行传播 以响应式编程方式进行思考
  • 【函数式】纯函数与替代模型

    纯函数 一个函数在程序执行的过程中除了根据输入参数给出运算结果之外没有其他的副作用影响 xff0c 我们可以把这类函数称为 纯函数 纯函数由于不依赖外部变量 xff0c 使得给定函数输入其返回结果永远不变 xff0c 比如整数的加法函数 x
  • C/C++ 常用程序库

    C C 43 43 程序库 https zhuanlan zhihu com p 98056565 来几个不常见但是很变态的库吧 bundle 把几乎所有常见的压缩库封装成了一个库 接口完全统一 想用哪个用哪个 就一个h和一个巨TM大的cp
  • git 提交的时候报错:error: 'flutter_app/' does not have a commit checked out

    如果有朋友遇到这个问题 xff0c 请不用担心 xff0c 因为这个问题非常简单 xff01 出现的情况就是 xff0c 你在一个github仓库里面 xff0c 放进来一个文件夹 xff0c 但是文件夹里面还有文件夹 xff0c 而且还没
  • Fragment中使用viewLifecycleOwner/getActivity/this

    观察liveData使用生命周期 如图 xff1a 当liveData想在fragment里观察的时候 xff0c 可以使用getActivity this getViewLifecycleOwner getActivity不必说 xff0
  • Android的FileProvider使用解释

    前言 从Android7 0 xff08 N xff09 开始 xff0c 严格执行 StrictMode 模式 xff0c 也就是说 xff0c 将对安全做更严格的校验 不允许在 App 间 xff0c 使用 file 的方式 xff0c
  • STM32G0 串口编程

    利用USB转串口调试 xff0c 烧写单片机程序 1 打开STM32 CubeProgrammer软件设置启动配置 2 让程序从system Flash启动 xff08 1 xff09 勾选 DTR 勾选RTS 取消勾选RTS 2 取消勾选
  • Android使用SystemProperties基础了解

    安卓系统属性是以键值对的形式存在 xff0c 一般放在system prop xff0c build prop xff0c default prop等文件中 这些属性可能是进程状态 xff0c 资源使用情况 xff0c 系统特有属性等等 创
  • 使用Android Studio打包Module成jar包

    现在假设我们想打包一个module成jar包的形式给其它应用调用 xff1a vrservice 1 0 jar 步骤1 在Module项目的build gradle文件中做如下配置 xff1a 生成jar包的配置如下 xff1a def
  • C++无符号整型与有符号整型变量的运算-不简单

    示例分析 xff1a include lt iostream gt include lt stdio h gt struct Result char c char d unsigned char e Result getChar int x
  • C++虚继承下的类大小

    前言 带有虚函数的虚继承的对象模型比较复杂 xff0c 所以单独整理一下 其实关于计算类大小是C 43 43 的一大易错点之一 即便是我在这儿理了半天 xff0c 也不一定就是正确的 xff0c 如果大佬看到本文 xff0c 发现我很多错误
  • 解决android的跑马灯频繁刷新的问题

    先贴一下跑马灯效果的代码 xff0c 这里我是继承的TextView xff1a public class MarqueeTextView extends AppCompatTextView public MarqueeTextView C
  • 关于第一次将STM32与电脑连接情况

    安装了Keil xff08 ARM xff09 版本之后 xff0c 不管是自己编程 xff0c 还是配套的程序运行 我们都想把它下载到STM32芯片里面 xff0c 在板子上运行 这里介绍几种方法 1 用J LINK下载调试 这个工具 x

随机推荐

  • [java语言]——InetAddress类的getByName()方法

    InetAddress 表示互联网协议 xff08 IP xff09 地址 InetAddress getByName 34 www 163 com 34 在给定主机名的情况下确定主机的IP地址 如果参数为null 获得的是本机的IP地址
  • Java中Calendar.DAY_OF_WEEK、DAY_OF_MONTH需要减一的原因

    Java中对日期的处理需要用到Calendar类 xff0c 其中有几个方法在使用时需要新手注意 1 在获取月份时 xff0c Calendar MONTH 43 1 的原因 xff08 Java中Calendar MONTH返回的数值其实
  • C语言学习笔记(三)(头文件的结构顺序)(类型不完整的解决方法)

    目录 前言原则结构推荐结构图方便的结构 类型不完整的原因和解决方法 xff1a 定义了不定长数组结构体的定义放在了头文件里面解决方法1 xff08 当采用使用时包含特定头文件时 xff09 xff1a 解决方法2 xff08 当一个头文件包
  • S2

    int count 61 0 double lat 61 55 8241 double lng 61 137 8347 double radius 61 900 半径 double capHeight 61 2 S2 M PI radius
  • 从STM32F407到AT32F407(一)

    雅特力公司的MCU有着性能超群 xff0c 价格优越的巨大优势 xff0c 缺点是相关资料少一些 xff0c 我们可以充分利用ST的现有资源来开发它 我用雅特力的STM32F437开发板 xff0c 使用原子 stm32f407的开发板自带
  • vue-java分离

    import com google gson Gson import io renren common utils HttpContextUtils import io renren common utils R import org ap
  • java学习

    莫求全 有效努力 定时出结果 架构设计DDD 微服务介绍 https www kancloud cn qingshou aaa1 2667225 https www cnblogs com chencan p 16042197 html h
  • CentOS6.5添加虚拟IP(VIP)

    使用keepalived 实现Nginx高可用时 需要用到这项技术 虚拟ip在高可用中的作用后续再说 今天看看怎么给服务器配置虚拟IP xff0c 其实也就是多分配个IP地址 首先查看一下现有网卡的IP地址 xff0c 用root特权运行下
  • 微服务Spring Cloud例子

    Spring Cloud简介 Spring Cloud是一个基于Spring Boot实现的云应用开发工具 xff0c 为开发者提供了在分布式系统 xff08 配置管理 xff0c 服务发现 xff0c 熔断 xff0c 路由 xff0c
  • 美邦威集成呼吸墙饰

    http www mbwqs cn 湖北光大新型环保装饰材料有限公司 美邦威集成呼吸墙饰 生产销售中心 xff1a 湖北汉川经济开发区光大工业园 光大材料 210590 上海股交所挂牌
  • activemq--MASTER SLAVE+BROKER CLUSTER 实践(二)

    鱼与熊掌兼得法 完美解决方案 我们知道 xff1a master slave模式下 xff0c 消息会被逐个复制而cluster模式下 xff0c 请求会被自动派发 那么可不可以把两者集成起来呢 xff1f 答案是有的 xff0c 网上所谓
  • Dubbo超时和重连机制

    dubbo启动时默认有重试机制和超时机制 超时机制的规则是如果在一定的时间内 xff0c provider没有返回 xff0c 则认为本次调用失败 xff0c 重试机制在出现调用失败时 xff0c 会再次调用 如果在配置的调用次数内都失败
  • Sharding-JDBC简介

    一般 xff0c 线上系统的业务量不是很大 xff0c 比如说单库的数据量在百万级别以下 xff0c 那么MySQL的单库即可完成任何增 删 改 查的业务操作 随着业务的发展 xff0c 单个DB中保存的数据量 xff08 用户 订单 计费
  • 1024

    听说今天发帖能有1024勋章 xff1f
  • 神奇!明明是 socket,被我玩成了 http!

    颓废青年 xff0c 快出来挨打 xff01 点击上方 Java极客技术 xff0c 选择 设为星标 后台回复 java xff0c 获取Java知识体系 面试必看资料 资料会持续更新 xff0c 已更新第四次 xff01 文章精品专栏 记
  • python画图程序

    usr bin python coding utf 8 import wx import wx lib buttons as buttons import wx adv as adv import wx lib colourselect a
  • 升级到tensorflow2.0,我整个人都不好了

    版本升级到 tensorflow 2 0 的悲惨经历 没事别升级 Tensorflow 2 0发布已经有一段时间了 xff0c 各种基于新API的教程看上去的确简单易用 xff0c 一个简单的mnist手写识别只需要下面不到20行代码就OK
  • 修改conda环境和缓存默认路径

    默认情况下 xff0c conda 创建的新环境 以及过往安装的模块缓存都存储在用户目录下 xff0c 这一点不会在 conda xff08 user specific xff09 配置文件 HOME condarc 中体现出来 xff0c
  • 融合人体姿态估计和目标检测的学生课堂行为识别

    融合人体姿态估计和目标检测的学生课堂行为识别 参考网 摘要 xff1a 在課堂教学中 xff0c 人工智能技术可以帮助实现学生行为分析自动化 xff0c 让教师能够高效且直观地掌握学生学习行为投入的情况 xff0c 为后续优化教学设计与实施
  • Python实例详解pdfplumber读取PDF写入Excel

    一 Python操作PDF 13大库对比 PDF xff08 Portable Document Format xff09 是一种便携文档格式 xff0c 便于跨操作系统传播文档 PDF文档遵循标准格式 xff0c 因此存在很多可以操作PD