Python、pyPdf、Adobe PDF OCR 错误：不支持的过滤器 /lzwdecode

2024-01-07

我的东西：python 2.6 64 位（安装了 pyPdf-1.13.win32.exe）。翼IDE。 Windows 7 64 位。

我收到以下错误：

NotImplementedError：不支持的过滤器/LZWDecode

当我运行以下代码时：

from pyPdf import PdfFileWriter, PdfFileReader
import sys, os, pyPdf, re

path = 'C:\\Users\\Homer\\Documents\\' # This is where I put my pdfs

filelist = os.listdir(path)

has_text_list = []
does_not_have_text_list = []

for pdf_name in filelist:
    pdf_file_with_directory = os.path.join(path, pdf_name)
    pdf = pyPdf.PdfFileReader(open(pdf_file_with_directory, 'rb'))

    for i in range(0, pdf.getNumPages()):
        content = pdf.getPage(i).extractText() #this is the line what done it
        does_it_have_text = re.findall(r'\w{2,}', content) 
        if does_it_have_text == []:
            does_not_have_text_list.append(pdf_name)
            print pdf_name
        else:
            has_text_list.append(pdf_name)

print does_not_have_text_list

这里有一些背景知识。该路径充满了 pdf 文件。有些是使用 Adobe pdf 打印机从文本文档保存的（至少我认为他们就是这样做的）。有些被扫描为图像。我想将它们分开并 OCR 图像（非图像是完美的，不应该弄乱）。

几天前我在这里问过如何做到这一点：

PDF 批量 OCR 程序 https://stackoverflow.com/questions/6026287/batch-ocr-program-for-pdfs

我得到的唯一答案是VB，而且我只会说Python。所以我想我会尝试写一个我自己问题的答案。我的策略（反映在上面的代码中）是这样的。如果它只是一个图像，那么该正则表达式将返回一个空列表。如果它有文本，则正则表达式（表示任何具有 2 个或更多字母数字字符的单词）将返回一个列表，其中填充了诸如 u'word' 之类的内容（在 python 中，我认为这是一个 unicode 字符串）。

所以代码应该可以工作，我们可以采取第一步使用开源软件完成另一个线程（将 ocrd 与图像 pdf 分开），但我不知道如何处理这个过滤器错误，谷歌搜索也不是有帮助。所以如果有人知道的话，将会很有帮助。

我真的不知道如何使用这个东西。我不确定 pyPdf 中的过滤器意味着什么。我认为它说的是它不能真正阅读pdf之类的东西，即使它是ocrd。有趣的是，我将其中一个非 ocrd 和一个 ocrd pdf 放在与 python 文件相同的文件夹中，这仅适用于没有 for 循环的版本，所以我不知道为什么要使用创建的 for 循环来执行它们过滤器错误。我将在下面发布单个代码。谢谢。

from pyPdf import PdfFileWriter, PdfFileReader
import sys, os, pyPdf, re

pdf = pyPdf.PdfFileReader(open(my_ocrd_file.pdf', 'rb'))

has_text_list = []
does_not_have_text_list = []

for i in range(0, pdf.getNumPages()):
    content = pdf.getPage(i).extractText()
    does_it_have_text = re.findall(r'\w{2,}', content)
      print does_it_have_text

它会打印一些东西，所以我不知道为什么我在一个上出现过滤器错误，而在另一个上却没有。当我针对目录中的另一个文件（不是 ocrd 的文件）运行此代码时，输出在一行上是一个空字符串，在下一行上是一个空字符串，如下所示：

[]
[]

所以我也不认为这是非 ocrd pdf 的过滤器问题。这超出了我的能力范围，我需要一些帮助。

Edit:

谷歌搜索发现了这个，但我不知道该怎么理解：

http://vaitls.com/treas/pdf/pyPdf/filters.py http://vaitls.com/treas/pdf/pyPdf/filters.py

将 pyPdf 的 filter.py 替换为http://vaitls.com/treas/pdf/pyPdf/filters.py http://vaitls.com/treas/pdf/pyPdf/filters.py在你的 pyPdf 源文件夹中。这对我有用。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Python、pyPdf、Adobe PDF OCR 错误：不支持的过滤器 /lzwdecode 的相关文章

尽管极其懒惰，但如何在 Python 中模拟 IMAP 服务器？

我很好奇是否有一种简单的方法来模拟 IMAP 服务器例如imaplib模块在Python中 without做很多工作是否有预先存在的解决方案理想情况下我可以连接到现有的 IMAP 服务器进行转储并让模拟服务器在真实的邮箱电子
将字符串转换为带有毫秒和时区的日期时间 - Python

我有以下 python 片段 from datetime import datetime timestamp 05 Jan 2015 17 47 59 000 0800 datetime object datetime strptime t
如何使用固定的 pandas 数据框进行动态 matplotlib 绘图？

我有一个名为的数据框benchmark returns and strategy returns 两者具有相同的时间跨度我想找到一种方法以漂亮的动画风格绘制数据点以便它显示逐渐加载的所有点我知道有一个matplotlib animat
如何在android上的python kivy中关闭应用程序后使服务继续工作

我希望我的服务在关闭应用程序后继续工作但我做不到我听说我应该使用startForeground 但如何在Python中做到这一点呢应用程序代码 from kivy app import App from kivy uix floatl
如何在 Sublime Text 2 的 OSX 终端中显示构建结果

我刚刚从 TextMate 切换到 Sublime Text 2 我非常喜欢它让我困扰的一件事是默认的构建结果显示在 ST2 的底部我的程序产生一些很长的结果显示它的理想方式如在 TM2 中是并排查看它们如何在 Mac 操作系统
SQL Alchemy 中的 NULL 安全不等式比较？

目前我知道如何表达 NULL 安全的唯一方法 SQL Alchemy 中的比较其中与 NULL 条目的比较计算结果为 True 而不是 NULL 是 or field None field value 有没有办法在 SQL Alchem
Spark的distinct()函数是否仅对每个分区中的不同元组进行洗牌

据我了解 distinct 哈希分区 RDD 来识别唯一键但它是否针对仅移动每个分区的不同元组进行了优化想象一个具有以下分区的 RDD 1 2 2 1 4 2 2 1 3 3 5 4 5 5 5 在此 RDD 上的不同键上所有重复键
为 pandas 数据透视表中的每个值列定义 aggfunc

试图生成具有多个值列的数据透视表我知道我可以使用 aggfunc 按照我想要的方式聚合值但是如果我不想对两列求和或求平均值而是想要一列的总和同时求另一列的平均值该怎么办那么使用 pandas 可以做到这一点吗 df pd D
Python tcl 未正确安装

我刚刚为 python 安装了graphics py 但是当我尝试运行以下代码时 from graphics import def main win GraphWin My Circle 100 100 c Circle Point 50
在循环中每次迭代开始时将变量重新分配给原始值（在循环之前定义）

在Python中你使用在每次迭代开始时将变量重新分配给原始值在循环之前定义时也就是说 original 1D o o o for i in range 0 3 new original 1D revert back to orig
Python 中的二进制缓冲区

在Python中你可以使用StringIO https docs python org library struct html用于字符数据的类似文件的缓冲区内存映射文件 https docs python org library mmap
Python：字符串不会转换为浮点数[重复]

这个问题在这里已经有答案了我几个小时前写了这个程序 while True print What would you like me to double line raw input gt if line done break else f
HTTPS 代理不适用于 Python 的 requests 模块

我对 Python 还很陌生我一直在使用他们的 requests 模块作为 PHP 的 cURL 库的替代品我的代码如下 import requests import json import os import urllib impor
Python：尝试检查有效的电话号码

我正在尝试编写一个接受以下格式的电话号码的程序XXX XXX XXXX并将条目中的任何字母翻译为其相应的数字现在我有了这个如果启动不正确它将允许您重新输入正确的数字然后它会翻译输入的原始数字我该如何解决 def main phon
循环中断打破tqdm

下面的简单代码使用tqdm https github com tqdm tqdm在循环迭代时显示进度条 import tqdm for f in tqdm tqdm range 100000000 if f gt 100000000 4 b
通过数据框与函数进行交互

如果我有这样的日期框架氮 EG 00 04 NEG 04 08 NEG 08 12 NEG 12 16 NEG 16 20 NEG 20 24 datum von 2017 10 12 21 69 15 36 0 87 1 42 0 76
为美国东部以外地区的 Cloudwatch 警报发送短信？

AWS 似乎没有为美国东部以外的 SNS 主题订阅者提供 SMS 作为协议我想连接我的 CloudWatch 警报并在发生故障时接收短信但无法将其发送到 SMS YES 经过一番挖掘后我能够让它发挥作用它比仅仅选择一个主题或输入闹钟
从 Python 中的类元信息对 __init__ 函数进行类型提示

我想做的是复制什么SQLAlchemy确实以其DeclarativeMeta班级有了这段代码 from sqlalchemy import Column Integer String from sqlalchemy ext declar
Python：元类属性有时会覆盖类属性？

下面代码的结果让我感到困惑 class MyClass type property def a self return 1 class MyObject object metaclass MyClass a 2 print MyObject
Python 分析：“‘select.poll’对象的‘poll’方法”是什么？

我已经使用 python 分析了我的 python 代码cProfile模块并得到以下结果 ncalls tottime percall cumtime percall filename lineno function 13937860 9

随机推荐

克朗表达式

我该如何编写一个 Cron 表达式来每天上午 8 点和下午 3 30 触发我了解如何创建每天触发一次的表达式而不是在多个设定时间触发提前致谢你应该只使用两行 0 8 command 30 15 command 当然在典型的 etc
有人成功使用 Amazon OpsWorks 部署节点（快速）应用程序吗？

正如标题所示我一直在尝试使用 Amazon 新的 OpsWorks 管理系统部署应用程序但是我无法弄清楚如何让节点服务器开始在实例上运行应用程序层也可以从端口进行访问我假设我需要侦听端口 80 但是我觉得问题在于没有启动正确的文件
在 C# 中，System.Collections.Generic.IEnumerable`1 中 IEnumerable 之后的 1 是什么意思

是什么意思1在 IEnumerable 之后 System Collections Generic IEnumerable 1 它是类型的泛型数量或者换句话说泛型类型支持的类型参数的数量 IEnumerable
Process.Dispose() 实际上做了什么？

In C class Process继承自class Component实现IDisposable所以我可以打电话Dispose on any Process目的我真的必须这样做吗我怎么知道我是否真的需要这样做假设我有以下代码 var
带 WindowListener 的 JDialog - windowClosing 未触发

我有一个扩展 JDialog 的类它有一个窗口侦听器 class MyClass extends JDialog public MyClass setDefaultCloseOperation JDialog DO NOTHING ON
无法在 jQuery Mobile 中以编程方式打开面板或弹出窗口

我正在构建我的第一个 JQM 网站所以我认为我错过了一些简单的小事情这给我带来了很多问题我已经设置了页面页眉内容和页脚以及菜单面板然后我有一个 js 文件其中包含以下内容 document on pageinit functi
检测 IOS 10（Swift 3、Xcode 8）中的 GSM 呼叫状态和后台状态通知

TLDR 从后台检测通话结束事件请参阅以下问题的更新是否可以使用 Swift 检测获取 IOS 10 中的呼叫状态事件背景状态在早期版本中有一个核心电话 https developer apple com reference core
强制 graphviz 保留节点位置

我有一个随时间变化的图表通常会添加新节点我需要多次重新生成图表并希望所有节点都保留在原来的位置当使用 graphviz 时这部分有效fdp 算法设置pin flag 并指定位置pos 争论在大多数情况下这非常有效但特别是当
Flutter - 'initialValue == null ||控制器== null'：不是真的。错误

我正在尝试为文本字段设置初始值但我无法在文本表单字段中设置初始值我收到这个错误 initialValue null controller null is not true code Widget buildFirstName Build
Paypal C# REST API 要求未记录的配置部分

我正在努力破解伦敦战斗哈克 http battlehack org london 我遇到了一个恼人的问题用于 c 的 PayPal SDK 似乎工作不太正常我正在尝试进行我的第一笔交易这是我的代码我将其放在一起修复损坏的在线文档 h
使用 EditorTemplate 将字节显示为复选框？

我的模型类 public class StatusList public int StatusID get set UIHint ByteCheckbox public byte Active get set 在 Views Shared
Gboard：在 EditText 上启用 GIF 插入

我正在使用Gboard来自我的应用程序中的 Google 当我输入GIF从键盘应用程序到我的EditText然后它会显示一个吐司文本字段不支持从键盘插入 GIF 我已经搜索了一千遍却找不到结果任何帮助将不胜感激图像键盘支持 User
TortoiseSVN命令保持打开的进程

我正在使用计划任务来运行更新我的 SVN 存储库的 bat 脚本计划任务每小时运行一次每次我运行脚本时它仍然会创建一个新进程 TortoiseProc exe 直到有很多打开的进程并且 CPU 处于 99 为止脚本运行良好但是不
错误：目录“.”无法安装。找不到“setup.py”和“pyproject.toml”

我正在尝试运行下面的文件https colab research google com github tensorflow models blob master research object detection colab tutoria
我可以在 finish() 上传递额外的 Intent 吗？

我想知道是否可以将信息发送到调用 finish 后返回的活动例如我有一个活动SendMessageActivity class它允许用户向他们的提要发布消息将消息保存到服务器后我调用finish 我应该开始我的MainActivi
使矩形透明

我需要使鼠标绘制的矩形透明以便看到桌面下面的代码绘制了我的矩形我应该添加什么才能得到这个感谢帮助 public void start Stage primaryStage Group group new Group Rectangl
没有 iframe 的 IE 8 和 9 中的跨域 cookie？

假设我控制两个域 www api domain com and www website domain com www api domain com提供一个 API 要求用户进行身份验证然后使用会话 cookie 来识别发出请求的用户 ww
`SET ANSI_NULLS OFF` 的作用是什么？

什么是SET ANSI NULLS OFF do 来自 MSDN http msdn microsoft com en us library aa259229 SQL 80 aspx SQL 92 标准要求对空值进行等于或不等于比较时计
如果单元格超出范围（范围 = 行中最左边的值 + 接下来 11 列），则求和列 R 或 Excel？

请看图片在图中的矩阵中从最左边的值接下来的 11 列总共 12 个月开始条目被视为新业务我用黄色突出显示了这个窗口该窗口右侧的任何内容都是退货业务对于每一列月我需要计算新业务和退货业务我需要一个公式或某种方法来
Python、pyPdf、Adobe PDF OCR 错误：不支持的过滤器 /lzwdecode

我的东西 python 2 6 64 位安装了 pyPdf 1 13 win32 exe 翼IDE Windows 7 64 位我收到以下错误 NotImplementedError 不支持的过滤器 LZWDecode 当我运行以下代码

Python、pyPdf、Adobe PDF OCR 错误：不支持的过滤器 /lzwdecode

Python、pyPdf、Adobe PDF OCR 错误：不支持的过滤器 /lzwdecode 的相关文章

随机推荐

热门标签