Pdfplumber 无法识别表 python [重复]

2024-03-03

我使用 Pdfplumber 提取第 2 页第 3 部分的表格（通常）。但它只适用于某些 pdf，其他则不起作用。对于失败的 pdf 文件，似乎 Pdfplumber 读取的是按钮表而不是我想要的表。

我怎样才能拿到桌子？ pdf 的链接不起作用：pdfA http://www.epc.shell.com/docs/GSAP_msds_01259319.PDF

有效的pdf链接：pdfB http://www.msds.exxonmobil.com/IntApps/psims/Download.aspx?ID=743681

这是我的代码：

import pdfplumber
pdf = pdfplumber.open("/Users/chueckingmok/Desktop/selenium/Shell Omala 68.pdf")
page = pdf.pages[1]
table=page.extract_table()

import pandas as pd
df = pd.DataFrame(table[1:], columns=table[0])
df

and the result is

But the table I want in page 2 is

但是，此代码适用于 pdfB（我上面提到过）。

顺便说一句，我想要每个 pdf 中的表格位于第 3 节中。

有人可以帮忙吗？

非常感谢琼

Updated: 我刚刚找到了一个很好的包来提取 pdf 文件，没有任何问题。该软件包是 fitz，也称为 PyMuPDF。

嘿，这是该问题的正确解决方案，但首先请阅读我下面的一些观点

好吧，您使用 pdfplumber 进行表格提取，但我认为您应该阅读有关表格设置的内容，表格的设置有很多，当您根据需要阅读它们时，您肯定会从那里找到答案。PdfPlumber API - 用于表提取的就在这里 https://github.com/jsvine/pdfplumber#extracting-tables
截至目前，我在下面为您的问题提供了完美的解决方案，但首先正确检查 pdfplumber API 的文档，您肯定可以从那里找到所有答案，并且我确信将来您不需要询问有关使用表提取的问题pdfplumber 因为您肯定会从那里找到有关表格提取以及其他内容（例如文本提取、单词提取等）的所有解决方案。
为了更好地理解表设置，您还可以使用可视化调试，这是 pdfplumber 的最佳功能，用于了解表设置对表的确切作用以及如何使用表设置提取表。表的可视化调试 https://github.com/jsvine/pdfplumber/blob/stable/examples/notebooks/extract-table-nics.ipynb

以下是您问题的解决方案，

import pandas as pd
import pdfplumber 
pdf = pdfplumber.open("GSAP_msds_01259319.pdf")
p1 = pdf.pages[1]
table = p1.extract_table(table_settings={"vertical_strategy": "lines", 
                                         "horizontal_strategy": "text", 
                                         "snap_tolerance": 4,})
df = pd.DataFrame(table[1:], columns=table[0])
df

查看上述代码的输出 https://i.stack.imgur.com/YFv32.jpg

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

tabular

pdfextraction

Pdfplumber 无法识别表 python [重复] 的相关文章

如何恢复tensorflow inceptions检查点文件（ckpt）？

I have inception resnet v2 2016 08 30 ckpt文件是预先训练的初始模型我想使用恢复这个模型 saver restore sess ckpt filename 但为此我将需要编写训练该模型时使用的变量
如何在 Matplotlib 饼图周围绘制箭头以将每个标签指向圆圈中各自的部分？

我一直在用 Matplotlib 绘制一些图表我有一个饼图想要在图表周围绘制箭头使每个标签都指向图表我有一个例子这是我当前的代码 import matplotlib pyplot as plt plt rcParams font
如何在 __init__ 中使用await设置类属性

我如何定义一个类await在构造函数或类体中例如我想要的 import asyncio some code class Foo object async def init self settings self settings setti
为什么 dataclasses.astuple 返回类属性的深层副本？

在下面的代码中astuple函数正在执行数据类的类属性的深层复制为什么它不能产生与函数相同的结果my tuple import copy import dataclasses dataclasses dataclass class Dem
pandas DataFrame.join 的运行时间是多少（大“O”顺序）？

这个问题更具概念性理论性与非常大的数据集的运行时间有关所以我很抱歉没有一个最小的例子来展示我有一堆来自两个不同传感器的数据帧我需要最终将它们连接成两个very来自两个不同传感器的大数据帧 df snsr1 and df snsr2
多输出堆叠回归器

一次性问题我正在尝试构建一个多输入堆叠回归器添加到 sklearn 0 22 据我了解我必须结合StackingRegressor and MultiOutputRegressor 经过多次尝试这似乎是正确的顺序 import nu
从Django中具有外键关系的两个表中检索数据？ [复制]

这个问题在这里已经有答案了 This is my models py file from django db import models class Author models Model first name models CharFie
Tensorboard SyntaxError：语法无效

当我尝试制作张量板时出现语法错误尽管开源代码我还是无法理解我尝试搜索张量板的代码但不清楚即使我不擅长Python 我这样写路径C Users jh902 Documents logs因为我正在使用 Windows 10 但我不确定
从 Powershell 脚本安装 Python

当以管理员身份从 PowerShell 命令行运行以下命令时可以在 Windows 11 上成功安装 Python c temp python 3 11 4 amd64 exe quiet InstallAllUsers 0 Instal
使用 python/numpy 重塑数组

我想重塑以下数组 gt gt gt test array 11 12 13 14 21 22 23 24 31 32 33 34 41 42 43 44 为了得到 gt gt gt test2 array 11 12 21 22 13 14
当字段是数字时怎么说...在 mongodb 中匹配？

所以我的结果中有一个名为城市的字段结果已损坏有时它是一个实际名称有时它是一个数字以下代码显示所有记录 db zips aggregate project city substr city 0 1 sort city 1 我需要修
尽管我已在 python ctypes 中设置了信号处理程序，但并未调用它

我尝试过使用 sigaction 和 ctypes 设置信号处理程序我知道它可以与python中的信号模块一起使用但我想尝试学习当我向该进程发送 SIGTERM 时但它没有调用我设置的处理程序只打印终止为什么它不调用处理程序
如何将 ascii 值列表转换为 python 中的字符串？

我在 Python 程序中有一个列表其中包含一系列数字这些数字本身就是 ASCII 值如何将其转换为可以在屏幕上回显的常规字符串您可能正在寻找 chr gt gt gt L 104 101 108 108 111 44 32 1
Protobuf 如何编码 oneof 消息结构

对于这个 python 程序在编码时运行 protobuf 编码会给出以下输出 0a 10 08 7f8a 0104 08 02 10 0392 0104 08 02 10 03 18 01 我不明白的是为什么8a后面有一个01 为什么9
如何使用 AWS Lambda Python 读取 AWS S3 存储的 Word 文档（.doc 和 .docx）文件内容？

我的场景是我尝试使用 python 实现从 Aws Lambda 读取 AWS 存储的 S3 word 文档 doc 和 docx 文件内容下面的代码是我使用的我的问题是我可以获取文件名但无法读取内容 def lambda hand
每当使用 import cv2 时 OpenCV 都会出错

我在终端上使用 pip3 install opencv contrib python 安装了 cv2 并且它工作了但是每当我尝试导入 cv2 或运行导入了 cv2 的 vscode 文件时在 python IDLE 上它都会说 Trac
制作一份 Python 文档的 PDF 文件

Python 官方网站提供 PDF 文档下载但它们是按章节分隔的我下载了源代码并构建了 PDF 文档这些文档也是单独的 PDF 我怎么能够从源代码中的 Makefile 构建一个 PDF 文件我认为这样阅读起来会更方便如果连接单独
Firebase Firestore：获取文档的生成 ID (Python)

我可以创建一个新文档带有自动生成的 ID 并存储对其的引用如下所示 my data key value doc ref db collection u campaigns add my data 我可以像这样访问数据本身 print d
python 对浮点数进行不正确的舍入

gt gt gt a 0 3135 gt gt gt print 3f a 0 314 gt gt gt a 0 3125 gt gt gt print 3f a 0 312 gt gt gt 我期待 0 313 而不是 0 312 有没有
如何将Python3设置为Mac上的默认Python版本？

有没有办法将 Python 3 8 3 设置为 macOS Catalina 版本 10 15 2 上的默认 Python 版本我已经完成的步骤看看它安装在哪里 ls l usr local bin python 我得到的输出是这样的

随机推荐

JAVAFX：可以通过代码设置css吗？

我有以下代码 progress bar gt bar fx background color linear gradient from 0em 0 75em to 0 75em 0px repeat fx accent 0 fx accen
我如何向 Activemq 发送消息

我从来不工作JMS 最近我下载了Activemq并更改端口号61616 to 61617 in all conf activemq xml文件我从命令提示符运行以下命令并在浏览器上打开控制台页面 C Users Infratab Bang
如何自动缩放一组控件的字体大小？

我在 WPF 网格中有一些 TextBlock 我想根据它们的可用宽度高度进行缩放当我搜索自动缩放字体大小时典型的建议是将 TextBlock 放入 ViewBox 中所以我这样做了
Android MediaRecorder API 不断裁剪视频比特率

我使用 MediaRecorder API 一段时间了我以为所有问题都已经过去了但我想我错了我正在使用 MediaRecorder API 将视频录制到文件中当我使用高质量的 setProfile 时我得到了良好的质量但是当我尝
如何在 React Native 中拉伸静态图像作为背景？

我想在我的 React Native 应用程序中使用背景图像图像比屏幕小所以我必须拉伸它但如果图像是这样它就不起作用从资源包加载 var styles StyleSheet create bgImage flex 1 flexDir
使用 MediaWiki 从 Wikia 页面提取文本，但返回结果一片混乱，是否有更好的方法可以从每个部分提取文本？

我正在开发一个 Android 应用程序它从 Wikia 页面提取信息并将其显示在应用程序中我目前正在拉动所有类别进行导航并将我的应用程序设置为在 WebView 中显示页面但我只想拉动信息并自行格式化而不是通过传递到 WebVi
android：如何在字符串中添加下划线
按组计算值之间的差异并匹配时间

对于每只鸟我想计算不同日期的平均每小时体温 Tb 测量值 Tb Periods 之间的差异我的目标是能够比较 BirdX 从 0900 PreI 到 09 00 DayI 10 00 PreI 到 10 00 PostI 等的 Tb 变
如何在 POST 期间获取不同资源的 JAX-RS @Path？

我有两个用于涉及用户资源的简单 Web 服务 Jersey 和 GlassFish 的 REST 类一个对所有用户进行操作例如 POSTing 的工厂另一个对单个用户进行操作例如 GET PUT 删除他们位于 Stateless
在sql server中使用case语句更新多列

我想使用 case 语句更新表查询是这样的 select case columnname when name1 then begin update table set pay1 pay1 100 pay2 pay2 20 pay3 pa
.Net Core 无法使用位图

我正在使用 Net Core 2 1 开发 Web 服务我有一个字节数组其中包含所有像素值灰度宽度高度我想从这些参数创建一个位图这是我的代码来自一个正在运行的 Net Framework 4 项目 public FileRe
CollapsingToolbarLayout 未正确调用 requestLayout()

我有一个折叠的工具栏布局其中包含图像折叠时显示工具栏标题我需要更改工具栏标题字体因此我在工具栏布局中添加了一个文本视图现在每当我折叠工具栏时都会重复生成以下错误 08 12 13 14 19 604 2263 2263 com
什么时候应该从类方法返回对对象的引用

从类方法返回引用的最佳实践是什么是否希望在没有引用的情况下返回基本类型而希望通过引用返回类对象您推荐的任何文章最佳实践文章我假设你所说的类方法是指成员函数通过引用返回的意思是返回对成员数据的引用这主要与返回对 local
Coq 中的“错误：宇宙不一致”是什么意思？

我正在努力通过软件基础 http www cis upenn edu bcpierce sf current 目前正在做教堂数字的练习这是自然数的类型签名 Definition nat forall X Type X gt X gt X
Google Finance，如何获取 JSON 数据流？

我之前试图解释这一点但显然失败了因此如果您打开了谷歌金融图表例如 http www google com finance q INDEXNASDAQ IXIC http www google com finance q INDEXN
将 HTTP 响应正文解析为 XML

我使用此代码执行 HTTP 请求并解析 XML 响应 using HttpWebResponse resp req GetResponse as HttpWebResponse if resp StatusCode HttpStatusCo
R中基于移动时间窗口连接数据

我有每小时记录一次的天气数据以及每 4 小时记录一次的位置数据 X Y 我想知道 X Y 位置的温度是多少天气数据并不完全相同因此我为每个位置编写了这个循环以扫描天气数据查找日期时间中的最接近并提取该时间的数据问题是我编
prolog 如何使用 succ 运行递归查询？

有人可以向我解释一下为什么这个序言查询会这样工作吗定义是 add 0 Y Y add succ X Y succ Z add X Y Z 鉴于这种 add succ succ succ 0 succ succ 0 R 这是查询的轨迹 Ca
如何根据数据属性内对象的属性选择元素？

如果我的标记如下所示 div div div div div div 如果我只有键 bar 或 foo 我将如何使用 JQuery 选择特定元素我可以取出每一行的整个对象并迭代它以查找匹配项但如果有更有
Pdfplumber 无法识别表 python [重复]

这个问题在这里已经有答案了我使用 Pdfplumber 提取第 2 页第 3 部分的表格通常但它只适用于某些 pdf 其他则不起作用对于失败的 pdf 文件似乎 Pdfplumber 读取的是按钮表而不是我想要的表我怎样才能拿到

Pdfplumber 无法识别表 python [重复]

Pdfplumber 无法识别表 python [重复] 的相关文章

随机推荐

热门标签