如何在Python中将提取的文本从PDF转换为JSON或XML格式？

2024-05-23

我正在使用 PyPDF2 从 PDF 文件中提取数据，然后转换为文本格式？

该文件的 PDF 格式如下：

Name : John 
Address: 123street , USA 
Phone No:  123456
Gender: Male 

Name : Jim 
Address:  456street , USA 
Phone No:  456899
Gender: Male

在Python中我使用这段代码：

import PyPDF2
pdf_file = open('C:\\Users\\Desktop\\Sampletest.pdf', 'rb')
read_pdf = PyPDF2.PdfFileReader(pdf_file)
number_of_pages = read_pdf.getNumPages()
page = read_pdf.getPage(0)
page_content = page.extractText()
page_content

这是我从 page_content 得到的结果：

 'Name : John \n \nAddress: 123street , USA \n \nPhone No:  123456\n \nGender: Male \n \n \nName : Jim \n \nAddress:  456street , USA \n \nPhone No:  456899\n \nGender: Male \n \n \n'

如何将其格式化为 JSON 或 XML 格式，以便我可以使用 SQL Server 数据库中提取的数据。

我也尝试使用这种方法

import json
data = json.dumps(page_content)
formatj = json.loads(data)
print (formatj)

Output:

Name : John 
Address: 123street , USA 
Phone No:  123456
Gender: Male 

Name : Jim 
Address:  456street , USA 
Phone No:  456899
Gender: Male

这与我的 Word 文件中的输出相同，但我认为这不是 JSON 格式。

不太漂亮，但我认为这可以完成工作。你会得到一个字典，然后由 json 解析器以漂亮的格式打印出来。

import json    

def get_data(page_content):
    _dict = {}
    page_content_list = page_content.splitlines()
    for line in page_content_list:
        if ':' not in line:
            continue
        key, value = line.split(':')
        _dict[key.strip()] = value.strip()
    return _dict

page_data = get_data(page_content)
json_data = json.dumps(page_data, indent=4)
print(json_data)

或者，不用最后 3 行，只需执行以下操作：

print(json.dumps(get_data(page_content), indent=4))

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

json

xml

pypdf

如何在Python中将提取的文本从PDF转换为JSON或XML格式？的相关文章

App Engine 上的 Django 与 webapp2 [关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
如何在 Pandas Python 中按 id 对行进行排名

我有一个像这样的数据框 id points1 points2 1 44 53 1 76 34 1 63 66 2 23 34 2 44 56 我想要这样的输出 id points1 points2 points1 rank points2
使用 Boto3 超时的 AWS Lambda 函数

我已经解决了我自己的问题但无论如何我都会发布它希望能节省其他人几个小时我在 AWS 上有一个无服务器项目使用 Python 将记录插入到 kinesis 队列中但是当我使用 boto3 client kinesis 或 put
json 具有自动完成功能？

我在用Jquery 自动完成 http docs jquery com Plugins Autocomplete autocomplete url or dataoptions 我也在使用 formatItem 我希望输出是
使用 Pandas 从 csv 文件读取标题信息

我有一个包含 14 行标题的数据文件在标头中有经纬度坐标和时间的元数据我目前正在使用 pandas read csv filename delimiter header 14 读取文件但这只是获取数据我似乎无法获取元数据有人知道
使用 Tkinter 打开网页

因此我的应用程序需要能够打开其中的单个网页并且它必须来自互联网并且未保存特别是我想使用 Tkinter GUI 工具包因为它是我最熟悉的工具包最重要的是我希望能够在窗口中生成事件例如单击鼠标但无需实际使用鼠标有什么好的方法
为什么需要设置WORKON_HOME环境变量？

我已经有一段时间没有使用 python 虚拟环境了但我也安装了虚拟环境包装器我的问题是在文档页面中它说要这样做 export WORKON HOME Envs mkdir p WORKON HOME source usr local
multiprocessing.Queue 中的 ctx 参数

我正在尝试使用 multiprocessing Queue 模块中的队列实施 https docs python org 3 4 library multiprocessing html exchang objects Between p
使用会话在 Django 中将文件从一个视图传递到另一个视图

我当前的工作项目要求我允许用户上传各种格式的文件目前仅处理 CSV 格式然后使用包含的数据来绘制图表Pandas http pandas pydata org 图书馆我决定将图形渲染到模板的最简单方法是为图形创建特定视图然后将图像从
pandas groupby 操作缺少数据

在 pandas 数据框中我有一列如下所示 0 M 1 E 2 L 3 M 1 4 M 2 5 M 3 6 E 1 7 E 2 8 E 3 9 E 4 10 L 1 11 L 2 12 M 1 a 13 M 1 b 14 M 1 c 15
将图与热图（可能是对数）配对？

How to create a pair plot in Python like the following but with heat maps instead of points or instead of a hex bin plot
使用 XPath 获取属性

给定一个像这样的 XML 结构
如何通过selenium中弹出的身份验证？

我正在尝试使用带有 Selenium 的 Python 脚本加载需要身份验证的网页 options webdriver ChromeOptions prefs download default directory r download de
如何将 URL 添加到 Telegram Bot 的 InlineKeyboardButton

我想制作一个按钮可以从 Telegram 聊天中在浏览器中打开 URL 外部超链接目前我只开发了可点击的操作按钮 update message reply text Subscribe to us on Facebook and Te
在Python中使用pil读取tif图像时出现值错误？

我必须读取尺寸的tif图像2200 2200并输入 uint16 我将 PIL 库与 anaconda python 一起使用如下所示 from PIL import Image img Image open test tif img i
用 pandas DataFrame 替换 mysql 数据库表中的行

Python 版本 2 7 6 熊猫版本 0 17 1 MySQLdb 版本 1 2 5 在我的数据库中 PRODUCT 我有一张桌子 XML FEED 表 XML FEED 很大数百万条记录我有一个 pandas DataFrame
PyQt5按钮lambda变量变成布尔值[重复]

这个问题在这里已经有答案了当我运行下面的代码时它显示如下为什么 x 不是 x 而是变成布尔值这种情况仅发生在传递到用 lambda 调用的函数中的第一个参数上错误的 y home me model some file from P
如何有效地比较 pandas DataFrame 中的行？

我有一个 pandas 数据框其中包含雷击记录以及时间戳和全球位置格式如下 Index Date Time Lat Lon Good fix 0 1 20160101 00 00 00 9962692 7 1961 60 7604 1
py2exe ImportError：没有名为的模块

我已经实现了一个名为 myUtils 的包它由文件夹 myUtils 文件组成 init py 和许多名称为 myUtils 的 py 文件该包包含在 myOtherProject py 中当我从 Eclipse 运行它们时可以找到
Chrome 驱动程序和 Chromium 二进制文件无法在 aws lambda 上运行

我陷入了一个问题我需要在 AWS lambda 上做一些抓取工作所以我按照下面提到的博客及其代码库作为起点这非常有帮助并且在运行时环境 Python 3 6 的 AWS lambda 上对我来说工作得很好 https manivan

随机推荐

如何更改特定元素的 XML 命名空间

我有一些通过某些 WCF 消息的 xmlserialization 生成的 xml 集现在我想创建一个通用方法在其中提供 xml 文件名和前缀例如mailxml12 然后在 xml 文件中那些名称中没有任何命名空间前缀的元素应替换为
Symfony 生成器形式、原则和 M:N 关系

我有一个基本的 M N 设置包含三个表 candidate position 和 Candidate position 这是 MySQL Workbench 的 ERD 屏幕截图现在我们继续讨论表单在 symfony 生成器的默认世
为什么在此 MultiBinding 上未调用 ConvertBack？

我的组合框列表联系人使用 MultiBinding 绑定到 FullName 和 PhoneExtension IMul tiValueConverter 的 Convert 方法被调用但 ConvertBack 未被调用为什么组合框
socket.io xhr 在连接缓慢时出现错误（3G 移动网络）

当我在 3G 移动网络互联网连接速度慢上测试我的真实聊天应用程序时 Socket io反复断开然后重新连接我已经记录了原因它说 xhr post error 这提高了 transport error 然后断开连接我可以知道什么意思
当满足条件时，如何以编程方式更改 ImageButton src 目标？

我有一个学校项目我正在尝试开发一个手电筒应用程序对于开关 ImageButton 我想要 4 个自定义图像如果手电筒关闭 turn on png 默认 turn on pressing png 按下状态 true 如果手电筒打开 t
带有 Android 支持库 v7 的 Maven Android 插件

我使用 maven android plugin 构建我的 android 应用程序它依赖于 android 支持库 v4 和 v7 由于我没有找到如何从developer android com下载整个sdk 因此我无法使用maven
如何覆盖和扩展基本的 Django 管理模板？

如何覆盖管理模板例如 admin index html 同时扩展它请参阅https docs djangoproject com en dev ref contrib admin overriding vs replacing an a
从一张表更新并插入另一张表

我有两张桌子 table1 ID 代码姓名 table2 ID 代码姓名具有相同的列我想将数据从 table1 插入到 table2 或更新列如果 table2 中存在 table1 ID table2 ID 执行此操作的简单方法
返回用 with open 打开的文件句柄？

我正在创建我想要接受压缩文件的软件由于文件在任何地方都可以读取写入因此我创建了一个用于打开文件的实用程序函数它可以为我处理某些压缩文件类型的打开关闭示例代码 def return file handle input file o
无法通过 Vue.js 从 Laravel 后端下载文件 (pdf)（Axios 帖子）

我在 Vue 中有一个多步骤表单一旦收集到所有信息我就会将结果发布到 Laravel 控制器这是网站的经过验证的区域我正在使用护照所以本质上我有一个 Vue SPA 它是在 Laravel 5 7 框架内构建的网站的管理区域 Vu
在 gradle 中，我应该排除分支下的所有依赖项还是只排除根就足够了？

我已将以下自定义任务添加到我的build gradlefile 为了打印出依赖项的依赖项 This part is useful for finding conflict resolution s between dependencies
Java 7 默认语言环境

我刚刚安装了 jre7 我很惊讶地发现我的默认区域设置现在是 en US 对于jre6 它是de CH 与jre7有什么不同默认区域设置不再是操作系统之一吗顺便说一句我使用的是Windows7 谢谢你的回答编辑我已经看到了语言环境
如何通过我的活动在 Android 中设置铃声？

我正在尝试找到一种方法来通过 Android 活动中的代码设置新的默认铃声我已经将铃声下载到bytearray 最后我设法将默认铃声设置为我下载的铃声下面不包含下载代码仅包含将其设置为默认铃声所需的代码 File k new Fil
在 VS Code 中使用 Prettier 格式化 .ejs 文件

我想使用 prettier 通过添加自定义规则来格式化我的 ejs 文件现在我正在使用 html 的文件关联作为 ejs 文件我在 settings json 文件中添加了以下代码文件关联 ejs html 不幸的是 Prettie
使用 WebDriver 单击新打开的选项卡中的链接

有人可以在这种情况下帮助我吗场景是有一个网页我仅在新选项卡中打开所有指定的链接现在我尝试单击新打开的选项卡中的任何一个链接在下面尝试过但它仅单击主第一个选项卡中的一个链接而不是在新选项卡中 new Actions drive
吉夫伦致命信号11

我正在尝试使用一些本机代码来创建 Gif 我使用绘画绘制图像创建一些笔画单击保存绘制的图像将保存为 JPG 格式当我单击创建 Gif 时它会获取所有图像并开始创建 gif 这是当我收到致命信号 11 并且应用程序重新启动时我
jquery数据表跨页行数

我正在为我的 HTML 表使用 jQuery DataTables 插件有没有办法跨页获取我的表格中的行数的行数例如如果我有70我的表中的行比方说50其中显示在第一页上并且20在第二页有没有办法得到计数70 我已经尝试了这篇文章
Android 中的列表（特别是 RecyclerView 和 CardView）如何工作

请原谅我问这个问题但我是 Android 开发新手尽管我正在尝试了解developer android com 网站上的基础知识但大多数示例即使他们说它们是为 Android Studio 构建的尚未设置为使用 Gradle 因此
从文件中删除特定行

这些是我的示例文件的内容 abcdefg hijk lmnopqrstAB CSTAKLJSKDJD KSA FIND ME akjsdkjhwjkjhasfkajbsdh ADHKJAHSKDJH 我需要查找并删除文件内的 FIND ME
如何在Python中将提取的文本从PDF转换为JSON或XML格式？

我正在使用 PyPDF2 从 PDF 文件中提取数据然后转换为文本格式该文件的 PDF 格式如下 Name John Address 123street USA Phone No 123456 Gender Male Name Jim

如何在Python中将提取的文本从PDF转换为JSON或XML格式？

如何在Python中将提取的文本从PDF转换为JSON或XML格式？ 的相关文章

随机推荐

热门标签

如何在Python中将提取的文本从PDF转换为JSON或XML格式？的相关文章