我如何找到文档文件中存在的图像,python 中有没有相应的模块。我搜索过但没有用。
这就是我们如何从word文件中读取内容。下面的代码没有提供有关文件中存在的图像的信息
from docx import Document
documnet=Document('new-file-name.docx')
para=documnet.paragraphs
for par in para:
print par.text
Since .docx
文件是zip文件,您可以使用zipfile module:
import zipfile
z = zipfile.ZipFile("1.docx")
#print list of valid attributes for ZipFile object
print dir(z)
#print all files in zip archive
all_files = z.namelist()
print all_files
#get all files in word/media/ directory
images = filter(lambda x: x.startswith('word/media/'), all_files)
print images
#open an image and save it
image1 = z.open('word/media/image1.jpeg').read()
f = open('image1.jpeg','wb')
f.write(image1)
#Extract file
z.extract('word/media/image1.jpeg', r'path_to_dir')
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)