使用 Python 从法语 Word 文档中提取 XML 时出现问题:生成非法字符

2024-01-26

在过去的几天里,我一直在尝试创建一个脚本,该脚本将 1) 从 Word 文档中提取 XML,2) 修改该 XML,3) 使用新的 XML 创建并保存新的 Word 文档。在许多 stackoverflow 用户的帮助下,我最终找到了看起来非常有前途的代码。这里是:

import zipfile
import os
import tempfile
import shutil

def getXml(docxFilename):
    zip = zipfile.ZipFile(open(docxFilename,"rb"))
    xmlString= zip.read("word/document.xml").decode("utf-8")
    return xmlString

def createNewDocx(originalDocx,xmlString,newFilename):
    tmpDir = tempfile.mkdtemp()
    zip = zipfile.ZipFile(open(originalDocx,"rb"))
    zip.extractall(tmpDir)
    with open(os.path.join(tmpDir,"word/document.xml"),"w") as f:
        f.write(xmlString)
    filenames = zip.namelist()
    zipCopyFilename = newFilename
    with zipfile.ZipFile(zipCopyFilename,"w") as docx:
        for filename in filenames:
            docx.write(os.path.join(tmpDir,filename),filename)
    shutil.rmtree(tmpDir)

getXml从中提取 XMLdocxFilename作为字符串。createNewDocx获取原始 Word 文档并将其 XML 替换为xmlString,它是原始 XML 的修改版本,并将生成的 Word 文档另存为newFilename.

为了检查脚本是否按预期工作,我首先创建了一个测试文档(“test.docx”)并运行createNewDocx("test.docx",getXml("test.docx"),"test2.docx")。如果一切按预期工作,这应该创建 test.docx 的相同副本,另存为 test2.docx。确实如此。

然后我将测试文档变得更加详细并尝试修改它。而且脚本仍然有效!

然后,我自信地将我的脚本应用到我真正有兴趣修改的 Word 文档中:template.docx. I ran createNewDocx("template.docx",getXml("template.docx"),"template2.docx"),期望脚本生成 template.docx 的相同副本,但名为 template2.docx。不幸的是,新的Word文档无法打开;显然 XML 中存在非法字符。

我真的不明白为什么我的代码适用于我的测试文档但不适用于我的实际文档。我会发布 template.docx 的 XML,但它包含个人信息。 test.docx 和 template.docx 之间的一个重要区别是 template.docx 是用法语编写的,因此包含重音符号等特殊字符,而且撇号看起来也不同。我不知道这是否是造成我麻烦的原因,但我没有其他想法。


问题是您不小心更改了编码word/document.xml in template2.docx. word/document.xml (from template.docx) 最初编码为 UTF-8(这是 XML 文档的默认编码)。

xmlString = zip.read("word/document.xml").decode("utf-8")

但是,当您将其复制为template2.docx您正在将编码更改为CP-1252。根据文档open(file, "w") https://docs.python.org/3/library/functions.html#open,

在文本模式下,如果未指定编码,则使用的编码取决于平台:调用 locale.getpreferredencoding(False) 来获取当前区域设置编码。

您表示致电locale.getpreferredencoding(False)给你cp1252这是编码word/document.xml正在编写中。

由于您没有明确添加<?xml version="1.0" encoding="cp1252"?>到开始word/document.xml,Word(或任何其他 XML 阅读器)会将其读为UTF-8代替CP-1252这就是非法 XML 字符错误的原因。

所以你想将编码指定为UTF-8当使用encoding论证open():

with open(os.path.join(tmpDir, "word/document.xml"), "w", encoding="UTF-8") as f:
    f.write(xmlString)
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

使用 Python 从法语 Word 文档中提取 XML 时出现问题:生成非法字符 的相关文章

随机推荐

  • 如何从 C# 显示“显示设置”窗口

    如何从 C 显示 Windows 显示设置 分辨率设置 窗口 可以调整屏幕分辨率的那个 我找到了一种方法通过 p invoke 更改显示设置 http pinvoke net default aspx user32 ChangeDispla
  • DocuSign API:在同一信封中发送多个文档的签名问题

    使用 C DocuSign API SDK 4 5 2 我将在同一个信封中寄出 3 份文件以供签名 每个文档将使用相同的服务器模板 它只是使用锚标记将签名元素放置在文档上 我可以寄出信封 然后从 DocuSign 收到电子邮件以查看 签署文
  • 仅返回具有最近 TIME 值的记录?

    我有一个表需要进行一些数据转换 这是一个简单的跟踪表 如下所示 SSN9 0 KEY 例如 123456789 非空 DATE8 0 KEY 例如 20131202 非空 TIME6 0 KEY 例如 133000 非空 打印 新Z 例如2
  • 使用 Namecheap DNS 的 Amazon S3 静态托管 - 如何正确路由非 www 前缀 URL

    我一直在阅读其他帖子 试图深入了解这个问题 但我需要一些澄清 当我进入时 我能够让所有域请求完美地到达我的 Amazon S3 存储桶www example com MyDirectory 如果我输入example com MyDirect
  • 使用 Glide 加载到 Imageview 但延迟

    我使用 Glide 从 Firebase 加载 ImageView 当我运行我的应用程序时 我的 ImageView 会延迟 就像我视频中的牙齿一样 https www youtube com watch v 6Mj0Xq3M8n0 htt
  • DB Design允许用户定义产品、产品规格并让自己插入订单

    我正在设计一个数据库 因为我需要开发这样一个 CRM 用户可以在其中指定新产品 产品规格和定价 然后让自己为上一步中指定的产品插入订单 当然 插入的数据需要根据它们在数据库中指定的内容进行评估 我举个例子可能会更清楚 user1 创建一个产
  • 我的项目不支持多设备屏幕视图

    我有一个菜单屏幕 XML 当我打开项目宽屏幕时 它不适应所有屏幕尺寸 我怎样才能克服这个问题 当我想添加有关此问题的图片时 我认为我需要 10 次代表 观点 有人可以帮助我吗
  • 寻找 C++ 的应用程序 GUI 库 [关闭]

    Closed 这个问题正在寻求书籍 工具 软件库等的推荐 不满足堆栈溢出指南 help closed questions 目前不接受答案 我正在考虑编写一个非常简单的绘画程序 我想要一种更高级的方法来将数据输入到我的程序中 例如颜色 画笔的
  • 命名空间“卡住”为终止,我如何删除它

    我有一个 卡住 的命名空间 我删除了它 显示在这个永恒的 终止 状态中 假设您已经尝试强制删除资源 例如 Pod 停留在终止状态 https stackoverflow com q 35453792 而你却束手无策地试图恢复名称空间 您可以
  • 命令行从 TFS“获取最新”,无需映射工作区等

    我假设 tf exe get project recursive 需要这个奇怪的工作区映射 已知的 TFS 服务器等 有什么办法可以做这个最简单的事情 连接到thisTFS 服务器使用this一组凭据 获取最新的源代码this项目并把它he
  • 如何从程序窗口外部获取鼠标事件

    我想拖动这个角色 图像 所以我使用这个方法来获取鼠标位置 WndProc HWND hWnd UINT message WPARAM wParam LPARAM lParam switch message case WM LBUTTONDO
  • 具有白色轮廓的 OpenGL 彩色位图字体

    我有一个 libgdx 游戏 我想在其中使用带有轮廓的位图字体 我希望能够使用 setColor 设置字体颜色 但是 我总是希望轮廓保持白色 对我来说实现这一目标的最佳方法是什么 我假设我应该使用片段着色器进行所需的颜色操作 我创建了一个位
  • 在finally块中抛出异常

    有没有一种优雅的方式来处理抛出的异常finally block 例如 try Use the resource catch Exception ex Problem with the resource finally try resourc
  • 找不到方法 android java.lang.NoClassDefFoundError 引用的类

    我正在调用一个单独的类 我已经在与我的包相同的包中编写了MainActivity类已保存 但是当我运行该应用程序时它给了我java lang NoClassDefFoundError 我不明白为什么无法识别同一包中定义的另一个类 我尝试过很
  • 在使用关联类型的情况下,如何为通用容器实现 Borrow?

    我想实施Borrow for UserFriendlyDataStructure提供对internal data函数内的字段应该与数据提供者无关 的类型internal data字段由与特征相关的类型决定TraitA 请注意 Sealed特
  • X500主要杰出姓名顺序

    我使用 Bouncycastle 库通过 X509v3CertificateBuilder 类从 PKCS10 请求生成证书 它返回构建一个包含生成的证书的 X509CertificateHolder 对象 如果我在持有者上调用 getIs
  • SoundCloud 自动在其移动网站上播放下一首歌曲如何?

    好的 我知道 iOS 不允许自动播放 但是 SoundCloud 如何在其移动网站上自动播放下一首歌曲呢 我可以获得我想要填充 iframe src 的下一首歌曲 并且小部件会重新加载以显示该曲目 我尝试了很多解决方法 即使我在下一首曲目准
  • Python 脚本的桌面启动器以错误的路径启动程序

    我无法从 Linux Mint 17 1 Cinnamon 上创建的 desktop 启动器启动 python 脚本 问题是脚本将在错误的路径中启动 即主文件夹而不是它所在的目录 因此 它无法在其文件夹中找到伴随它的其他重要文件 因此无法工
  • 检查列表是否由 X 的 N 个实例组成(重复 X N 次)

    给定一个查询 例如 containsN 4 2 Z 我应该得到 Z 2 2 2 2 or containsN 4 W 3 3 3 3 我应该得到 W 3 换句话说 对于第一个示例 我需要绑定到 Z 的列表中 2 的 4 个实例 对于第二个示
  • 使用 Python 从法语 Word 文档中提取 XML 时出现问题:生成非法字符

    在过去的几天里 我一直在尝试创建一个脚本 该脚本将 1 从 Word 文档中提取 XML 2 修改该 XML 3 使用新的 XML 创建并保存新的 Word 文档 在许多 stackoverflow 用户的帮助下 我最终找到了看起来非常有前