我正在使用 PyPDF2 从 PDF 文件中提取数据,然后转换为文本格式?
该文件的 PDF 格式如下:
Name : John
Address: 123street , USA
Phone No: 123456
Gender: Male
Name : Jim
Address: 456street , USA
Phone No: 456899
Gender: Male
在Python中我使用这段代码:
import PyPDF2
pdf_file = open('C:\\Users\\Desktop\\Sampletest.pdf', 'rb')
read_pdf = PyPDF2.PdfFileReader(pdf_file)
number_of_pages = read_pdf.getNumPages()
page = read_pdf.getPage(0)
page_content = page.extractText()
page_content
这是我从 page_content 得到的结果:
'Name : John \n \nAddress: 123street , USA \n \nPhone No: 123456\n \nGender: Male \n \n \nName : Jim \n \nAddress: 456street , USA \n \nPhone No: 456899\n \nGender: Male \n \n \n'
如何将其格式化为 JSON 或 XML 格式,以便我可以使用 SQL Server 数据库中提取的数据。
我也尝试使用这种方法
import json
data = json.dumps(page_content)
formatj = json.loads(data)
print (formatj)
Output:
Name : John
Address: 123street , USA
Phone No: 123456
Gender: Male
Name : Jim
Address: 456street , USA
Phone No: 456899
Gender: Male
这与我的 Word 文件中的输出相同,但我认为这不是 JSON 格式。