在 Python 中读取 .docx 文件以查找删除线、项目符号和其他格式

2024-05-04

任何人都可以帮助我在使用 python-docx 的 Python 中识别 .docx 文件中的段落是否包含带有删除线格式的文本（即它出现但被划掉），或者在开头有一个项目符号点？我正在尝试编写一个脚本来识别文档中的结构并解析内容。

到目前为止，我能够读取 .docx 文件并迭代段落，识别粗体段落。

from docx import Document
document = Document(r'C:\stuff\Document.docx')
for p in document.paragraphs:
    print p.text
    for run in p.runs:
        if run.bold:
            print 'BOLD ' + run.text

其余的暂时我不明白。

对于删除线，您可以像这样修改示例：

from docx import Document
document = Document(r'C:\stuff\Document.docx')
for p in document.paragraphs:
    for run in p.runs:
        if run.font.strike:
            print "STRIKE: " + run.text

请参阅 API 文档了解Font http://python-docx.readthedocs.io/en/latest/api/text.html#font-objects对象以获取更多有趣的内容，您可以检查。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

Pandoc

pythondocx

在 Python 中读取 .docx 文件以查找删除线、项目符号和其他格式的相关文章

Django：如何测试“HttpResponsePermanentRedirect”

我正在为我的 django 应用程序编写一些测试在我看来它使用 HttpResponseRedirect 重定向到其他一些网址那么我该如何测试呢姜戈TestCase类有一个方法assertRedirects https docs d
从字符串到类型的词法转换

最近我尝试用Python存储和读取文件中的信息遇到了一个小问题我想从文本文件中读取类型信息从 string 到 int 或 float 的类型转换非常有效但从 string 到 type 的类型转换似乎是另一个问题当然我尝试了
在python中将文本文件解析为列表

我对 Python 完全陌生我正在尝试读取包含单词和数字组合的 txt 文件我可以很好地读取 txt 文件但我正在努力将字符串转换为我可以使用的格式 import matplotlib pyplot as plt import num
即使使用 .loc[row_indexer,col_indexer] = value 时也会设置 WithCopyWarning

这是我的代码中得到的行之一SettingWithCopyWarning value1 Total Population value1 Total Population replace to replace value 4 然后我将其更改为
Pandas重置索引未生效[重复]

这个问题在这里已经有答案了我不确定我在哪里误入歧途但我似乎无法重置数据帧上的索引当我跑步时test head 我得到以下输出正如您所看到的数据帧是一个切片因此索引超出范围我想做的是重置该数据帧的索引所以我跑test rese
如果字段值在外部列表中，Django 会注释布尔值

想象一下我有这个 Django 模型 class Letter models Model name models CharField max length 1 unique True 还有这个列表 vowels a e i o u 我想查询
Python igraph：从图中删除顶点

我正在使用安然电子邮件数据集并尝试删除没有 enron com 的电子邮件地址即我只想拥有安然电子邮件当我尝试删除那些没有 enron com 的地址时一些电子邮件由于某些原因被跳过下面显示了一个小图其中顶点是电子邮件地址这是
sudo pip install python-Levenshtein 失败，错误代码 1

我正在尝试在 Linux 上安装 python Levenshtein 库但每当我尝试通过以下方式安装它时 sudo pip install python Levenshtein 我收到此错误命令 usr bin python c 导入
“char”/“character”类型的类型提示

char 或 character 没有内置的原始类型因此显然必须使用长度为 1 的字符串但是为了暗示这一点并暗示它应该被视为一个字符如何通过类型提示来实现这一点 grade chr A 一种方法可能是使用内置的 chr 函数来表示这一
具有多个元素的数组的真值是二义性错误吗？ Python

from numpy import from pylab import from math import def TentMap a x if x gt 0 and x lt 0 5 return 2 a x elif x gt 0 5 a
如何使用Python的super()来更新父值？

我对继承很陌生之前所有关于继承和 Python 的 super 函数的讨论都有点超出我的理解我当前使用以下代码来更新父对象的值 usr bin env python test py class Master object mydata
如何列出 python PDB 中的当前行？

在 perl 调试器中如果重复列出离开当前行的代码段可以通过输入命令返回到当前行点我无法使用 python PDB 模块找到任何类似的东西如果我list如果我自己离开当前行并想再次查看它似乎我必须记住当前正在执行的行号对我来说
Matplotlib Scatter - ValueError：RGBA 序列的长度应为 3 或 4

我正在尝试为我的功能绘制图表但不断收到此错误 ValueError RGBA sequence should have length 3 or 4 每当我只有 6 种形状时代码就可以完美运行但现在我将其增加到 10 种它就不起作用了
在 MacO 和 Linux 上安装 win32com [重复]

这个问题在这里已经有答案了我的问题很简单我可以安装吗win32com蟒蛇API pywin32特别是在非 Windows 操作系统上我一直在Mac上尝试多个版本pip install pywin32 都失败了下面是一个例子如果你
Airflow Python 单元测试？

我想为我们的 DAG 添加一些单元测试但找不到任何单元测试有 DAG 单元测试框架吗有一个端到端的测试框架存在但我猜它已经死了 https issues apache org jira browse AIRFLOW 79 https
查找给定节点的最高权重边

我在 NetworkX 中有一个有向图边缘的权重从 0 到 1 表示它们发生的概率网络连通性非常高所以我想修剪每个节点的边缘只保留最高概率的节点我不确定如何迭代每个节点并仅保留最高权重in edges在图中有没有一个networ
Scipy 稀疏 Cumsum

假设我有一个scipy sparse csr matrix代表下面的值 0 0 1 2 0 3 0 4 1 0 0 2 0 3 4 0 我想就地计算非零值的累积和这会将数组更改为 0 0 1 3 0 6 0 10 1 0 0 3 0 6
张量流：注册 numpy bfloat16 扩展

正如我所见 tensorflow 中有 bfloat16 的 numpy 扩展 https github com tensorflow tensorflow blob 24ffe9f729160a095a5cab8f592392018280
为什么我们应该在 def __init__(self, n) -> None: 中使用 -> ？

我们为什么要使用 gt in def init self n gt None 我读了以下摘录来自 PEP 484 https www python org dev peps pep 0484 the meaning of annotatio
来自 django 教程 was_published_recently.admin_order_field = 'pub_date'

From Django 教程 https www jetbrains com help pycharm 2017 1 creating and running your first django project html d28041e21

随机推荐

以编程方式设置 ListView 中的激活项

我有一个简单的ListView与一些具有setChoiceMode set to ListView CHOICE MODE SINGLE 这意味着当我触摸某个项目时它会突出显示这样用户就可以看到什么菜单选项 ListView是一个菜单
计算具有不同 x 值的 y 值的平均值

我试图计算平均值y来自不同的数组例如np mean axis 1 但与不同的x values 生产x and y数组我使用的代码如下 x1 np arange 10 x2 np arange 10 1 x3 np arange 10 2
使用 forEach 映射对象数组的 Object.entries 返回未定义，除非使用 console.log

我有一个具有键值对的对象数组我想在每个对象中找到特定的键并返回值数组的示例 filterCounties StateName Delaware CountyName Kent FIPS 10001 Eligibles 2017 3329
有没有办法从 Windows 7 上的 Windows 服务启动 GUI 应用程序？

我做了很多搜索寻找一种从 Windows 7 上的 Windows 服务启动 GUI 应用程序的方法我发现的大部分内容是 Windows 7 服务现在在单独的用户会话中运行并且无法显示任何图形界面给当前用户我想知道是否有任何解决方法
Maven 不能在 jenkins 上运行（但可以通过 eclipse 和命令行运行）

我有一些 CI 测试全部在 Maven 中进行当我在本地 Windows 10 的 Eclipse 中运行它们以及通过 ec2 Linux 服务器中的命令行运行它们时构建成功仅当我从 Jenkins 构建相同的项目时我会收到以下错
为什么 sizeof(x++) 不增加 x？

这是编译后的代码Dev C https en wikipedia org wiki Dev C 2B 2B在 Windows 上 include
DELPHI win32 的 ORM [关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案有谁知道 Delphi Win32 的 ORM 或类似的东西吗 Marco Cantu 是 Insta
WebSphere MQ FTE 中的退出和调用有什么区别？

最近有人问我这个问题所以我想我应该在这里发布问题和答案 FTE 退出和 FTE 呼叫有什么区别它们的用途是什么以及何时使用它们背景WebSphere MQ File Transfer Edition WMQ FTE 是一个基于 Web
将 ionic Zip 读取为内存流 C#

我正在使用 Ionic Zip 通过以下方法将 ZipFile 提取到内存流 private MemoryStream GetReplayZipMemoryStream MemoryStream zipMs new MemoryStream
如何修复 GitHub 拉取请求中被 git rebase 破坏的提交顺序？

当我编写代码时我会将其分解为小的逻辑更改以便轻松快速地进行审查为此我使用git rebase i 交互式压缩删除和更改提交的顺序我注意到这有时会导致 GitHub 拉取请求的提交顺序不同尽管该顺序保留在远程分支上例如 co
这是一个不正确的警告吗？

让我们看看我经常看到的这个代码模式 struct Foo template
使用 sh shell 比较字符串

我正在使用 SH shell 我试图将字符串与变量的值进行比较但是if条件始终执行为真为什么这是一些代码 Sourcesystem ABC if Sourcesystem eq XYZ then echo Sourcesystem M
将 CSS 导入 HTML 不起作用

我正在尝试将 CSS 文件 import 导入 HTML 但它不起作用我确实尝试过链接路径但它也不起作用但这种格式似乎工作为 http U5 L ttJS http 127 0 0 1 54149 assets pages U5 JS
C++：从同一类的成员函数调用纯虚函数

考虑以下 2 个程序 include
在实体框架中使用 Asp.net Identity 抛出无法从程序集“EntityFramework，版本=6.0”加载类型“.Schema.IndexAttribute”

public EmployeeDTO AuthenticateEmployee string username string password try var userLogin UnitOfWork UserLoginRepository
将 PhotoSwipe 配置为不使用整个窗口？

我目前正在尝试使用构建移动图片库照片滑动 http photoswipe com 我已经能够让它工作了但有一个小问题当我单击照片缩略图实际照片总是占据整个视口当您在移动设备上查看图库时这是可以的但是如果您的视口是计算机屏幕
托管 C++ 引用类

任何好的网站或解释什么是ref class何时将一个类声明为引用类 msdn上的解释对我来说还不够基本类型可选一个基础类型引用类或引用结构可以继承零个或多个托管接口以及零个或一个引用类型值类或值结构只能从零个或多个托管接口继承
git 克隆密码存储或缓存在哪里？

环境定义使用Windows 10操作系统我使用 githttps git scm com https git scm com 和 Github 的 Git Shell 背景当我发出如下所示的 git clone 命令时 git clo
Prism 6 与旧版本的兼容性

我有一个使用 Prism 5 WPF 的主项目的解决方案该解决方案还包含更多属于 Prism 模块的项目现在我必须创建一个新模块我想知道我是否只能在该模块中使用 Prism 6 并且它将与 Prism 5 主项目兼容或者我是否需要在
在 Python 中读取 .docx 文件以查找删除线、项目符号和其他格式

任何人都可以帮助我在使用 python docx 的 Python 中识别 docx 文件中的段落是否包含带有删除线格式的文本即它出现但被划掉或者在开头有一个项目符号点我正在尝试编写一个脚本来识别文档中的结构并解析内容到目前为止我

在 Python 中读取 .docx 文件以查找删除线、项目符号和其他格式

在 Python 中读取 .docx 文件以查找删除线、项目符号和其他格式 的相关文章

随机推荐

热门标签

在 Python 中读取 .docx 文件以查找删除线、项目符号和其他格式的相关文章