从 DOCX 中提取表

2023-12-01

我在使用 OpenXML (C#) 解析 *.docx 文档时遇到一个问题。

所以，这是我的步骤：
1.加载*.docx文档
2. 接收段落列表
3. 在每个段落中查找文本、图像和表格元素
4. 为每个文本和图像元素创建 html 标签
5. 将输出保存为 *.html 文件

我已经找到如何在文档中找到图像文件并提取它。现在还有一步要做 - 找到表格在文本（段落）中的位置。

如果有人知道如何使用 OpenXML 查找 *.docx 文档中的表格，请提供帮助。谢谢。

额外的：好吧，可能是我不清楚解释我的意思。如果我们获取段落内容，您可以找到文本块、图片等Child对象。因此，如果段落包含包含图片的“运行”，则意味着在 Word 文档中的这个位置放置了图像。

我的函数示例：

public static string ParseDocxDocument(string pathToFile)
    {
        StringBuilder result = new StringBuilder();
        WordprocessingDocument wordProcessingDoc = WordprocessingDocument.Open(pathToFile, true);
        List<ImagePart> imgPart = wordProcessingDoc.MainDocumentPart.ImageParts.ToList();
        IEnumerable<Paragraph> paragraphElement = wordProcessingDoc.MainDocumentPart.Document.Descendants<Paragraph>();
        int imgCounter = 0;


        foreach (Paragraph par in paragraphElement)
        {

                //Add new paragraph tag
                result.Append("<div style=\"width:100%; text-align:");

                //Append anchor style
                if (par.ParagraphProperties != null && par.ParagraphProperties.Justification != null)
                    switch (par.ParagraphProperties.Justification.Val.Value)
                    {
                        case JustificationValues.Left:
                            result.Append("left;");
                            break;
                        case JustificationValues.Center:
                            result.Append("center;");
                            break;
                        case JustificationValues.Both:
                            result.Append("justify;");
                            break;
                        case JustificationValues.Right:
                        default:
                            result.Append("right;");
                            break;
                    }
                else
                    result.Append("left;");

                //Append text decoration style
                if (par.ParagraphProperties != null && par.ParagraphProperties.ParagraphMarkRunProperties != null && par.ParagraphProperties.ParagraphMarkRunProperties.HasChildren)
                    foreach (OpenXmlElement chield in par.ParagraphProperties.ParagraphMarkRunProperties.ChildElements)
                    {
                        switch (chield.GetType().Name)
                        {
                            case "Bold":
                                result.Append("font-weight:bold;");
                                break;
                            case "Underline":
                                result.Append("text-decoration:underline;");
                                break;
                            case "Italic":
                                result.Append("font-style:italic;");
                                break;
                            case "FontSize":
                                result.Append("font-size:" + ((FontSize)chield).Val.Value + "px;");
                                break;
                            default: break;
                        }
                    }

                result.Append("\">");

                //Add image tag
                IEnumerable<Run> runs = par.Descendants<Run>();
                foreach (Run run in runs)
                {
                    if (run.HasChildren)
                    {
                        foreach (OpenXmlElement chield in run.ChildElements.Where(o => o.GetType().Name == "Picture"))
                        {
                            result.Append(string.Format("<img style=\"{1}\" src=\"data:image/jpeg;base64,{0}\" />", GetBase64Image(imgPart[imgCounter].GetStream()),
                                           ((DocumentFormat.OpenXml.Vml.Shape)chield.ChildElements.Where(o => o.GetType().Name == "Shape").FirstOrDefault()).Style
                                ));
                            imgCounter++;
                        }
                    }
                }

                //Append inner text
                IEnumerable<Text> textElement = par.Descendants<Text>();
                if (par.Descendants<Text>().Count() == 0)
                    result.Append("<br />");

                foreach (Text t in textElement)
                {
                    result.Append(t.Text);
                }


                result.Append("</div>");
                result.Append(Environment.NewLine);

        }

        wordProcessingDoc.Close();

        return result.ToString();
    }

现在我想在文本中指定表格位置（如 Word 中所示）。

Final:

好吧，大家，我已经知道了。在我的示例函数中，有一个很大的错误。我枚举文档正文的段落元素。表格与段落处于同一级别，因此函数忽略表格。所以我们需要枚举文档主体的元素。

这是我的测试函数，用于从 docx 生成正确的 HTML（这只是测试代码，所以它不干净）

public static string ParseDocxDocument(string pathToFile)
    {
        StringBuilder result = new StringBuilder();
        WordprocessingDocument wordProcessingDoc = WordprocessingDocument.Open(pathToFile, true);
        List<ImagePart> imgPart = wordProcessingDoc.MainDocumentPart.ImageParts.ToList();
        List<string> tableCellContent = new List<string>();
        IEnumerable<Paragraph> paragraphElement = wordProcessingDoc.MainDocumentPart.Document.Descendants<Paragraph>();
        int imgCounter = 0;

        foreach (OpenXmlElement section in wordProcessingDoc.MainDocumentPart.Document.Body.Elements<OpenXmlElement>())
        {
            if(section.GetType().Name == "Paragraph")
            {
              Paragraph par = (Paragraph)section;
                //Add new paragraph tag
                result.Append("<div style=\"width:100%; text-align:");

                //Append anchor style
                if (par.ParagraphProperties != null && par.ParagraphProperties.Justification != null)
                    switch (par.ParagraphProperties.Justification.Val.Value)
                    {
                        case JustificationValues.Left:
                            result.Append("left;");
                            break;
                        case JustificationValues.Center:
                            result.Append("center;");
                            break;
                        case JustificationValues.Both:
                            result.Append("justify;");
                            break;
                        case JustificationValues.Right:
                        default:
                            result.Append("right;");
                            break;
                    }
                else
                    result.Append("left;");

                //Append text decoration style
                if (par.ParagraphProperties != null && par.ParagraphProperties.ParagraphMarkRunProperties != null && par.ParagraphProperties.ParagraphMarkRunProperties.HasChildren)
                    foreach (OpenXmlElement chield in par.ParagraphProperties.ParagraphMarkRunProperties.ChildElements)
                    {
                        switch (chield.GetType().Name)
                        {
                            case "Bold":
                                result.Append("font-weight:bold;");
                                break;
                            case "Underline":
                                result.Append("text-decoration:underline;");
                                break;
                            case "Italic":
                                result.Append("font-style:italic;");
                                break;
                            case "FontSize":
                                result.Append("font-size:" + ((FontSize)chield).Val.Value + "px;");
                                break;
                            default: break;
                        }
                    }

                result.Append("\">");

                //Add image tag
                IEnumerable<Run> runs = par.Descendants<Run>();
                foreach (Run run in runs)
                {
                    if (run.HasChildren)
                    {
                        foreach (OpenXmlElement chield in run.ChildElements.Where(o => o.GetType().Name == "Picture"))
                        {
                            result.Append(string.Format("<img style=\"{1}\" src=\"data:image/jpeg;base64,{0}\" />", GetBase64Image(imgPart[imgCounter].GetStream()),
                                           ((DocumentFormat.OpenXml.Vml.Shape)chield.ChildElements.Where(o => o.GetType().Name == "Shape").FirstOrDefault()).Style
                                ));
                            imgCounter++;
                        }
                        foreach (OpenXmlElement table in run.ChildElements.Where(o => o.GetType().Name == "Table"))
                        {
                            result.Append("<strong>HERE'S TABLE</strong>");
                        }
                    }
                }

                //Append inner text
                IEnumerable<Text> textElement = par.Descendants<Text>();
                if (par.Descendants<Text>().Count() == 0)
                    result.Append("<br />");

                foreach (Text t in textElement.Where(o=>!tableCellContent.Contains(o.Text.Trim())))
                {
                    result.Append(t.Text);
                }


                result.Append("</div>");
                result.Append(Environment.NewLine);

            }
            else if (section.GetType().Name=="Table")
            {
                result.Append("<table>");
                Table tab = (Table)section;
                foreach (TableRow row in tab.Descendants<TableRow>())
                {
                    result.Append("<tr>");
                    foreach (TableCell cell in row.Descendants<TableCell>())
                    {
                        result.Append("<td>");
                        result.Append(cell.InnerText);
                        tableCellContent.Add(cell.InnerText.Trim());
                        result.Append("</td>");
                    }
                    result.Append("</tr>");
                }
                result.Append("</table>");
            }                
        }


        wordProcessingDoc.Close();

        return result.ToString();
    }

    private static string GetBase64Image(Stream inputData)
    {
        byte[] data = new byte[inputData.Length];
        inputData.Read(data, 0, data.Length);
        return Convert.ToBase64String(data);
    }

尝试按照以下步骤查找文档中的第一个表。

Table table = doc.MainDocumentPart.Document.Body.Elements<Table>().First();

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

c

OpenXML

docx

从 DOCX 中提取表的相关文章

“构建”构建我的项目，“构建解决方案”则不构建

我刚刚开始使用VS2010 我有一个较大的解决方案已从 VS2008 成功迁移我已将一个名为 Test 的控制台应用程序项目添加到解决方案中选择构建 gt 构建解决方案不编译新项目选择构建 gt 构建测试确实构建了项目在失败的情况
以文化中立的方式将字符串拆分为单词

我提出了下面的方法旨在将可变长度的文本拆分为单词数组以进行进一步的全文索引处理删除停止词然后进行词干分析结果似乎不错但我想听听关于这种实现对于不同语言的文本的可靠性的意见您会建议使用正则表达式来代替吗请注意我选择不使用 S
在哪里可以找到列出 SSE 内在函数操作的官方参考资料？

是否有官方参考列出了 GCC 的 SSE 内部函数的操作即头文件中的函数除了 Intel 的 vol 2 PDF 手册外还有一个在线内在指南 https www intel com content www us en docs in
BitTorrent 追踪器宣布问题

我花了一点业余时间编写 BitTorrent 客户端主要是出于好奇但部分是出于提高我的 C 技能的愿望我一直在使用理论维基 http wiki theory org BitTorrentSpecification作为我的向导我已经建
如何使用 ICU 解析汉字数字字符？

我正在编写一个使用 ICU 来解析由汉字数字字符组成的 Unicode 字符串的函数并希望返回该字符串的整数值五 gt 5 三十一 gt 31 五千九百七十二 gt 5972 我将区域设置设置为 Locale getJapan 并使用
用于登录 .NET 的堆栈跟踪

我编写了一个 logger exceptionfactory 模块它使用 System Diagnostics StackTrace 从调用方法及其声明类型中获取属性但我注意到如果我在 Visual Studio 之外以发布模式运行代
在 Windows 窗体中保存带有 Alpha 通道的单色位图会保存不同（错误）的颜色

在 C NET 2 0 Windows 窗体 Visual Studio Express 2010 中我保存由相同颜色组成的图像 Bitmap bitmap new Bitmap width height PixelFormat Form
C# 中通过 Process.Kill() 终止的进程的退出代码

如果在我的 C 应用程序中我正在创建一个可以正常终止或开始行为异常的子进程在这种情况下我通过调用 Process Kill 来终止它但是我想知道该进程是否已退出通常情况下我知道我可以获得终止进程的错误代码但是正常的退出代码是什
C++ OpenSSL 导出私钥

到目前为止我成功地使用了 SSL 但遇到了令人困惑的障碍我生成了 RSA 密钥对之前使用 PEM write bio RSAPrivateKey 来导出它们然而手册页声称该格式已经过时实际上它看起来与通常的 PEM 格式不同相
带动态元素的 WPF 启动屏幕。如何？

我是 WPF 新手我需要一些帮助我有一个加载缓慢的 WPF 应用程序因此我显示启动屏幕作为权宜之计但是我希望能够在每次运行时更改屏幕并在文本区域中显示不同的引言这是一个生产力应用程序所以我将使用非愚蠢但激励性的引言当然如
重载<<的返回值

include
使用 Bearer Token 访问 IdentityServer4 上受保护的 API

我试图寻找此问题的解决方案但尚未找到正确的搜索文本我的问题是如何配置我的 IdentityServer 以便它也可以接受授权带有 BearerTokens 的 Api 请求我已经配置并运行了 IdentityServer4 我还在
while 循环中的 scanf

在这段代码中 scanf只工作一次我究竟做错了什么 include
SolrNet连接说明

为什么 SolrNet 连接的容器保持静态这是一个非常大的错误因为当我们在应用程序中向应用程序发送异步请求时 SolrNet 会表现异常在 SolrNet 中如何避免这个问题 class P static void M string
转发声明和包含

在使用库时无论是我自己的还是外部的都有很多带有前向声明的类根据情况相同的类也包含在内当我使用某个类时我需要知道该类使用的某些对象是前向声明的还是 include d 原因是我想知道是否应该包含两个标题还是只包含一个标题现在我知
如何在整个 ASP .NET MVC 应用程序中需要授权

我创建的应用程序中除了启用登录的操作之外的每个操作都应该超出未登录用户的限制我应该添加 Authorize 每个班级标题前的注释像这儿 namespace WebApplication2 Controllers Authorize p
垃圾收集器是否在单独的进程中运行？

垃圾收集器是否在单独的进程中启动例如如果我们尝试测量某段代码所花费的进程时间并且在此期间垃圾收集器开始收集它会在新进程上启动还是在同一进程中启动它的工作原理如下吗 Code Process 1 gt Garbage Collect
IEnumreable 动态和 lambda

我想在 a 上使用 lambda 表达式IEnumerable
如何将服务器服务连接到 Dynamics Online

我正在修改内部管理应用程序以连接到我们的在线托管 Dynamics 2016 实例根据一些在线教程我一直在使用OrganizationServiceProxy out of Microsoft Xrm Sdk Client来自 SDK
对来自流读取器的过滤数据执行小计

编辑问题未得到解答我有一个基于 1 个标准的过滤输出前 3 个数字是 110 210 或 310 给出 3 个不同的组从流阅读器控制台问题已编辑因为第一个答案是我给出的具体示例的字面解决方案我使用的实际字符串长度为 450 个

随机推荐

使用纯java的Android直播视频

我正在尝试在android中做一个实时流媒体应用程序我的问题是使用http和rtsp有什么区别有什么方法可以只用java代码来做到这一点我指已经完成的很多项目都在使用java与其他语言组合有没有什么方法可以仅使用java以有效的方式进
如何在iReport中使用SQL查询同一项目的多个SUM

我正在使用 iReport 创建 JasperReport 因此我仅限于一个 SQL 查询我有一个表统计其中包含名称 VARCHAR 计数 INTEGER 和日期时间 DATETIME 列当最后一天的名称为测试时获
x86 汇编 - 将 rax 夹紧优化为 [ 0 .. limit )

我正在编写一个简单的汇编程序其目标自然是尽可能快然而位于最嵌套循环中的某个部分似乎并不正确我相信有可能提出更聪明和更快的实现甚至可能不使用条件跳转代码实现了一个简单的事情 if rax lt 0 then rax 0 else
如何更改 ASP.NET Boilerplate Angular 模板 UI 主题 (Adminbsb)

我正在使用 ASP NET Boilerplate Angular Template 启动一个项目但我想将 UI 主题更改为另一个 Core UI 主题使用过 ASP NET Boilerplate Angular Template 的
如何在 Java 中将 CRON 字符串转换为 ScheduleExpression？

我遇到这个问题我有一个文本字段应该编写一个 CRON 表达式然后保存现在我需要一种方法来转换 CRON 字符串以下是一些随机示例 http www quartz scheduler org documentation quartz
神经网络关于输入的导数

我训练了一个神经网络对正弦函数进行回归并希望计算相对于输入的一阶和二阶导数我尝试使用这样的 tf gradients 函数 neural net 是 tf keras Sequential 的实例 prediction neural n
注入属性不适用于字段

注入属性不适用于字段 Inject public MyContext context Not injected Inject public MyContext context get set Injected 我正在使用默认的 Ninjec
如何在.NET Compact Framework(C#) 中封送“Cstring”类型？

如何在 NET Compact Framework C 中封送 Cstring 类型 DLL名称 Test Cstring dll 操作系统为WinCE 5 0 源代码 extern C declspec dllexport int Get
使用 C++11 的 MinGW 和打包结构对齐

对于下面的结构 actual 没有填充结构的大小为 54 在具有 MinGW GCC 4 8 1 x86 64 的 64 位 Windows 7 机器上我得到sizeof BMPHeader 为56 这是可以理解的根据BMP文件格式的
在 url 中附加参数而不重新加载页面

我正在使用以下代码将参数附加到 url 这工作正常但是当参数附加在 url 中时页面将重新加载我想在不重新加载页面的情况下使用此功能 function insertParam key value key escape key valu
星号导入是否包含Java中的子包？

当您像这样声明导入时 import com microsoft azure storage 这是否也包括其子包中的所有内容例如它包括这个吗 import com microsoft azure storage blob 如果没有为什么
ASP.NET 嵌套 GridView，DataItem 在子 GridView 的 RowDataBound 事件中返回 null

在嵌套的 GridView 中父 GridView 的模板列内的 GridView 我将子 GridView 绑定到父 GridView 的 RowDataBound 事件中的 DataTable 这是应该的但我面临的问题是在 Chil
不是 CSS 选择器

是否有某种非 CSS 选择器例如当我在 CSS 中编写以下行时带有 class 的标签内的所有输入字段班级名称将有红色背景 classname input background red 如何选择带有类的标签外部的所有输入字段班级名称
如何创建用列表初始化的构造函数？

如何使用包含 n 个元素的列表初始化构造函数 X x 4 5 6 对于包含 n 个元素的列表您需要使用 std initializer list Initializer list 对象会像数组一样自动构造分配了 T 类型的元素其中的每
Angular 路由器 3 通配符匹配

以下路由配置有什么问题我总是被导航到即使有一条路线app jungle import bootstrap from angular platform browser dynamic import RouterConfig provide
阻止使用 .htaccess 访问 php 文件（文件夹），XMLHttpRequest 除外

我有一个文件夹www mysite com page panel soascripts 其中有 10 个不同的 PHP 文件我想阻止访问该文件夹脚本以及其中的 php 文件除了X Requested With XMLHttpReques
即使在获得开发人员许可证后，Visual Studio 2013（XAML？）设计器也会在所有 Windows Phone 项目上崩溃

我的设计师开始崩溃即使是在干净的项目上错误信息如下 System Exception Package failed updates dependency or conflict validation Windows cannot ins
与 SQL Server 建立连接时发生网络相关或特定于实例的错误

我在网络服务器上托管我的 ASP NET 网站但是上传后当我尝试访问我的网站时 http www vbi volvobusesindia com 然后出现以下错误与网络相关或特定于实例的建立时发生错误连接到 SQL Server 服
在python中生成真正的随机数[重复]

这个问题在这里已经有答案了 Python函数生成真随机数 By true随机数也意味着每次运行 python 时生成的种子都是不同的我该怎么做呢生成随机数的方法有很多种但有一个共同点它们都需要外部输入假设您使用像游戏一样的简单 R
从 DOCX 中提取表

我在使用 OpenXML C 解析 docx 文档时遇到一个问题所以这是我的步骤 1 加载 docx文档2 接收段落列表3 在每个段落中查找文本图像和表格元素4 为每个文本和图像元素创建 html 标签5 将输出保存为 html 文件

从 DOCX 中提取表

从 DOCX 中提取表 的相关文章

随机推荐

热门标签

从 DOCX 中提取表的相关文章