Python 文本中重复的短语

2023-11-29

我有一个问题，我不知道如何解决它。请给一个建议。

我有一条文字。好大好大的文字。任务是找到文本中所有长度为3（包含三个单词）的重复短语。

在我看来，你有两个问题。

第一个是提出一种标准化输入的有效方法。你说你想找到输入中的所有三词短语，但是短语是由什么组成的呢？例如，有the black dog and The black, dog?同一个短语？

正如 marcog 所建议的，做到这一点的一种方法是使用类似的东西re.findall。但这非常低效：它遍历您的整个输入并将单词复制到列表中，然后您必须处理该列表。如果您输入的文本很长，就会浪费时间和空间。

更好的方法是将输入视为流，并构建一个一次生成一个单词的生成器。下面是一个示例，它使用空格作为单词之间的分隔符，然后从单词中去除非字母字符并将它们转换为小写：

>>> def words(text):
       pattern = re.compile(r"[^\s]+")
       non_alpha = re.compile(r"[^a-z]", re.IGNORECASE)
       for match in pattern.finditer(text):
           nxt = non_alpha.sub("", match.group()).lower()
           if nxt:  # skip blank, non-alpha words
               yield nxt


>>> text
"O'er the bright blue sea, for Sir Joseph Porter K.C.B."
>>> list(words(text))
['oer', 'the', 'bright', 'blue', 'sea', 'for', 'sir', 'joseph', 'porter', 'kcb']

第二个问题是将规范化的单词分组为三词短语。同样，这里是生成器可以高效执行的地方：

>>> def phrases(words):
        phrase = []
        for word in words:
            phrase.append(word)
            if len(phrase) > 3:
                phrase.remove(phrase[0])
            if len(phrase) == 3:
                yield tuple(phrase)

>>> list(phrases(words(text)))
[('oer', 'the', 'bright'), ('the', 'bright', 'blue'), ('bright', 'blue', 'sea'), ('blue', 'sea', 'for'), ('sea', 'for', 'sir'), ('for', 'sir', 'joseph'), ('sir', 'joseph', 'porter'), ('joseph', 'porter', 'kcb')]

几乎可以肯定，该函数有一个更简单的版本，但这个版本非常高效，而且也不难理解。

值得注意的是，将生成器链接在一起仅遍历列表一次，并且不会在内存中构建任何大型临时数据结构。您可以使用结果来构建defaultdict按短语键入：

>>> import collections
>>> counts = collections.defaultdict(int)
>>> for phrase in phrases(words(text)):
        counts[phrase] += 1

这使得单次传递text因为它计算短语。完成后，查找字典中值大于 1 的每个条目。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

Text

repeat

Python 文本中重复的短语的相关文章

Python PAM 模块的安全问题？

我有兴趣编写一个 PAM 模块该模块将利用流行的 Unix 登录身份验证机制我过去的大部分编程经验都是使用 Python 进行的并且我正在交互的系统已经有一个 Python API 我用谷歌搜索发现pam python http pa
如何使用固定的 pandas 数据框进行动态 matplotlib 绘图？

我有一个名为的数据框benchmark returns and strategy returns 两者具有相同的时间跨度我想找到一种方法以漂亮的动画风格绘制数据点以便它显示逐渐加载的所有点我知道有一个matplotlib animat
如何生成给定范围内的回文数列表？

假设范围是 1 X 120 这是我尝试过的 gt gt gt def isPalindrome s check if a number is a Palindrome s str s return s s 1 gt gt gt def ge
Pycharm Python 控制台不打印输出

我有一个从 Pycharm python 控制台调用的函数但没有显示输出 In 2 def problem1 6 for i in range 1 101 2 print i end In 3 problem1 6 In 4 另一方面像
如何在android上的python kivy中关闭应用程序后使服务继续工作

我希望我的服务在关闭应用程序后继续工作但我做不到我听说我应该使用startForeground 但如何在Python中做到这一点呢应用程序代码 from kivy app import App from kivy uix floatl
DreamPie 不适用于 Python 3.2

我最喜欢的 Python shell 是DreamPie http dreampie sourceforge net 我想将它与 Python 3 2 一起使用我使用了添加解释器 DreamPie 应用程序并添加了 Python 3 2
如何在 Sublime Text 2 的 OSX 终端中显示构建结果

我刚刚从 TextMate 切换到 Sublime Text 2 我非常喜欢它让我困扰的一件事是默认的构建结果显示在 ST2 的底部我的程序产生一些很长的结果显示它的理想方式如在 TM2 中是并排查看它们如何在 Mac 操作系统
pandas 替换多个值

以下是示例数据框 gt gt gt df pd DataFrame a 1 1 1 2 2 b 11 22 33 44 55 gt gt gt df a b 0 1 11 1 1 22 2 1 33 3 2 44 4 3 55 现在我想根据
如何在Windows上模拟socket.socketpair

标准Python函数套接字套接字对 https docs python org 3 library socket html socket socketpair不幸的是它在 Windows 上不可用从 Python 3 4 1 开始我
为 pandas 数据透视表中的每个值列定义 aggfunc

试图生成具有多个值列的数据透视表我知道我可以使用 aggfunc 按照我想要的方式聚合值但是如果我不想对两列求和或求平均值而是想要一列的总和同时求另一列的平均值该怎么办那么使用 pandas 可以做到这一点吗 df pd D
如何在文本集中创建所有字符组合？

例如我有这样的文本集第 1 栏 a b 第 2 栏 l m n 第 3 栏 v w x y 我想将它们组合起来以获得如下输出 alv alw alx aly amv amw amx amy 这将输出 24 种文本组合如果我只使用前两列
keras加载模型错误尝试将包含17层的权重文件加载到0层的模型中

我目前正在使用 keras 开发 vgg16 模型我用我的一些图层微调 vgg 模型拟合我的模型训练后我保存我的模型model save name h5 可以毫无问题地保存但是当我尝试使用以下命令重新加载模型时load mod
Python 中的二进制缓冲区

在Python中你可以使用StringIO https docs python org library struct html用于字符数据的类似文件的缓冲区内存映射文件 https docs python org library mmap
NameError：名称“urllib”未定义”

CODE import networkx as net from urllib request import urlopen def read lj friends g name fetch the friend list from Liv
feedparser 在脚本运行期间失败，但无法在交互式 python 控制台中重现

当我运行 eclipse 或在 iPython 中运行脚本时它失败了 ascii codec can t decode byte 0xe2 in position 32 ordinal not in range 128 我不知道为什么但
在pyyaml中表示具有相同基类的不同类的实例

我有一些单元测试集希望将每个测试运行的结果存储为 YAML 文件以供进一步分析 YAML 格式的转储数据在几个方面满足我的需求但测试属于不同的套装结果有不同的父类这是我所拥有的示例 gt gt gt rz shorthand for
Python：字符串不会转换为浮点数[重复]

这个问题在这里已经有答案了我几个小时前写了这个程序 while True print What would you like me to double line raw input gt if line done break else f
在Python中重置生成器对象

我有一个由多个yield 返回的生成器对象准备调用该生成器是相当耗时的操作这就是为什么我想多次重复使用生成器 y FunctionWithYield for x in y print x here must be something t
Spark.read 在 Databricks 中给出 KrbException

我正在尝试从 databricks 笔记本连接到 SQL 数据库以下是我的代码 jdbcDF spark read format com microsoft sqlserver jdbc spark option url jdbc sql
Python：元类属性有时会覆盖类属性？

下面代码的结果让我感到困惑 class MyClass type property def a self return 1 class MyObject object metaclass MyClass a 2 print MyObject

随机推荐

无法在 bash 中执行双括号中的命令

为了保持一致我尝试在所有 if 语句中使用双括号然而当我要检查我想要运行的命令的返回值时我确实遇到了问题在测试了几种创建 if 语句的方法之后我发现只有没有括号才能执行命令以下不起作用 if command then echo
Rustc/LLVM 为 aarch64 生成错误代码，opt-level=0

我有两个文件被组装编译链接到简约内核中 start s set CPACR EL1 FPEN 0b11 lt lt 20 set BOOT STACK SIZE 8 1024 global boot stack global start
geom_bar(aes = ) 和position_dodge(width = ) 中的“width =”以什么单位呈现？

我想在其中一个躲避的栏上专门放置一些东西我怎样才能做到这一点在下面的示例中我想在条形图的 cat3 组中的 A3 上专门分层一些内容我知道 cat3 的 x 3 但由于闪避宽度和条宽度的相互依赖性似乎很难瞄准该条有没有可以用来计
Gradle Java 应用程序的 Proguard 示例

我是混淆新手并试图弄清楚如何混淆使用 gradle 创建的 java 应用程序这个想法是混淆 gradle 构建后创建的可运行 jar 这是 gradle 文件 plugins Apply the java plugin to add
如何在 C# 中连接 WAV 文件

我有 2 个 wav 文件我想将它们连接成一个带有两个音轨的文件是否有任何用于该任务的 API 或 NET 中的一些内置命令我可以使用它们以某种天才的方式来使该任务成为可能非常感谢您的帮助如果我没有记错的话您可以将第二个文件中的
未来的建造者会在每个设定状态上不断重建

我正在构建一个使用 api 的应用程序并且我正在使用 future 构建器来获取数据但问题是当状态更改时它会重建我想防止这种情况发生 Thanks 尝试使用这个 class Example extends StatefulWidget
将 XmlHttpRequest 解析为 XmlListModel

我想将检索到的 xmlHttpRequest 对象放入 XMLListModel 中我正在使用 qml 主要目标是评估我获得的 xml 并显示列表中的条目如果有更好的方法请告诉我我在这里找到了一个用于分析 xml 的解决方案 ht
Android Studio无法加载项目

更新最新的Android studio后我无法再加载项目了并且错误消息无法加载项目 com intellij ide plugins PluginManager StartupAbortedException 致命初始化 com i
将 .XLSX 转换为 Google Sheet 并移动转换后的文件的脚本

我知道可以使用脚本和驱动 API 将 Excel 文件转换为 Google Sheets 但我正在寻找脚本来转换 Excel 工作表并将转换后的文件移动到其他文件夹所以需要的步骤如下将 Excel xls xlsx 从文件夹 A 转换为
即使我运行程序时也获得不同的线程顺序

有人可以告诉我线程开始执行的顺序吗我写了下面的代码 class NewThread implements Runnable Thread t NewThread creating a second thread t new Thread
值类中的验证

SIP 15 意味着可以使用值类别来定义新的数字类别例如正数是否可以在没有构造函数的情况下编写底层 gt 0 的约束而不必调用单独的方法来验证约束即创建此类的有效实例是简洁的如果值类具有构造函数的概念那么这可能是进行如下验证的
Laravel 资源 URL 忽略 https

我在模板中使用以下代码来加载 CSS 文件如果我在本地计算机上通过 https 查看页面则指向 app css 文件的链接也是 https 但是在我的实时服务器上这种情况不会发生如果你查看现场直播通过 https 并查看源代码您可
延续和回调有什么区别？

我一直在浏览整个网络寻找有关延续的启示令人难以置信的是最简单的解释竟然能让像我这样的 JavaScript 程序员完全困惑当大多数文章用Scheme 中的代码解释延续或使用monad 时尤其如此现在我终于认为我已经理解了延续的本质
如何在 pyspark 数据框中创建连续数字列？

我想创建带有连续数字的列pyspark从指定编号开始的数据帧例如我想添加列A到我的数据框df这将从5到我的数据帧的长度增加一所以5 6 7 length df 一些简单的解决方案使用pyspark方法您可以使用以下方法执行此操作r
如何从 php API 运行 casperJS 脚本

我有一个 casperJS 脚本通过命令行运行时会返回 JSON 我想最好在 PHP 中创建一个 API 它在命令行 casperJS Sample js 中运行脚本并返回 JSON 作为结果您可以使用php casperjs库是一个简
将双空格替换为单空格

如何使用 C 将双空格替换为单空格 ex 1 2 3 4 5 gt 1 2 3 4 5 这就是我到目前为止所做的 int tmain int argc TCHAR argv string line ifstream myfile myFil
使用 C# 或经典 ASP (VBScript) 从 PDF 中提取文本的好方法是什么？ [关闭]

Closed 此问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南目前不接受答案有没有一个好的库可以从 PDF 中提取文本如果需要的话我愿意付出代价与 C 或经典 ASP VBScript 一起使用的东西将是理想的我还需要
如何使用 3d 数组和 2d 数组 numpy 进行掩码

如何使用 1d 数组从 3d 数组中选择一组元素 These are my 3 data types A numpy ndarray numpy ndarray float B1 numpy ndarray numpy ndarray nu
XML DOM 设置文本内容

我需要将一个大 XML 拆分为许多 child xml 文件除了更改值之外我的代码可以正常工作我需要插入我的字符串Titleproper Bla bla text
Python 文本中重复的短语

我有一个问题我不知道如何解决它请给一个建议我有一条文字好大好大的文字任务是找到文本中所有长度为3 包含三个单词的重复短语在我看来你有两个问题第一个是提出一种标准化输入的有效方法你说你想找到输入中的所有三词短语但是短语是

Python 文本中重复的短语

Python 文本中重复的短语 的相关文章

随机推荐

热门标签

Python 文本中重复的短语的相关文章