Powershell XMLDocument保存为无BOM的UTF-8


我构建了一个 System.Xml.XmlDocument 类型的 XML 对象。

IsPublic IsSerial Name BaseType                                                         
-------- -------- ---- --------                                                         
True     False    XmlDocument System.Xml.XmlNode 

我使用 save() 方法将其保存到文件中。


这将以带有 BOM 的 UTF-8 格式保存文件。 BOM 会导致其他脚本出现问题。

当我们在 Notepad++ 中打开 XML 文件并将其保存为 UTF-8(不含 BOM)时,其他脚本不会出现问题。所以我被要求保存没有 BOM 的脚本。

The 保存方法的 MS 文档 https://learn.microsoft.com/en-us/dotnet/api/system.xml.xmldocument.save?view=netframework-4.8 states:

编码属性的值取自 XmlDeclaration.Encoding 属性。如果 XmlDocument 没有 XmlDeclaration,或者 XmlDeclaration 没有编码属性,则保存的文档也不会具有编码属性。

The 有关 XmlDeclaration 的 MS 文档 https://learn.microsoft.com/en-us/dotnet/api/system.xml.xmldeclaration.encoding?view=netframework-4.8列出了 UTF-8、UTF-16 等的编码属性。它没有提到 BOM。

XmlDeclaration 是否具有省略 BOM 的编码属性?

附言。此行为在 Powershell 5 和 Powershell 7 中是相同的。

Unfortunately, the presence of an explicit encoding="utf-8" attribute in the declaration of an XML document causes .NET's [xml] (System.Xml.XmlDocument) type to .Save() https://learn.microsoft.com/en-US/dotnet/api/System.Xml.XmlDocument.Save the document, when given a file path, to an UTF-8-encoded file with BOM, which can indeed cause problems (even though it shouldn't[1]).

请求更改此设置 https://github.com/dotnet/runtime/issues/28218已经原则上开绿灯, 但是截至 .NET 6.0 尚未实现(由于关于改变的更大讨论[System.Text.Encoding]::UTF8 to not在这种情况下使用 BOM.Save()也将不再自动创建 BOM)。

有点讽刺的是,the absence of an encoding属性原因.Save()创建 UTF-8 编码的文件without a BOM.

A simple solution is therefore to remove the encoding attribute[2]; e.g.:

# Create a sample XML document:
$xmlDoc = [xml] '<?xml version="1.0" encoding="utf-8"?><foo>bar</foo>'

# Remove the 'encoding' attribute from the declaration.
# Without this, the .Save() method below would create a UTF-8 file *with* BOM.
$xmlDoc.ChildNodes[0].Encoding = $null

# Now, saving produces a UTf-8 file *without* a BOM.

[1] Per the XML W3C Recommendation https://www.w3.org/TR/xml/#charencoding: "entities encoded in UTF-8 MAY begin with the Byte Order Mark" [BOM].

[2] This is safe to do, because the XML W3C Recommendation https://www.w3.org/TR/xml/#charencoding effectively mandates UTF-8 as the default in the absence of both a BOM and an encoding attribute.


