读取 spacy 中的文本文件语料库

2023-12-29

我看到的使用 spacy 的所有示例都只是在单个文本文件(尺寸很小)中读取。 如何将文本文件语料库加载到 spacy 中?

我可以通过腌制语料库中的所有文本来使用 textacy 来做到这一点:

docs =  textacy.io.spacy.read_spacy_docs('E:/spacy/DICKENS/dick.pkl', lang='en')

for doc in docs:
    print(doc)

但我不清楚如何使用这个生成器对象(文档)进行进一步分析。

另外,我宁愿使用 spacy,而不是 textacy。

spacy 也无法读取单个大文件(~ 2000000 个字符)。

任何帮助将不胜感激...

Ravi


所以我终于成功了,并将其保留在这里供子孙后代使用。

从一个生成器开始,这里命名为iterator因为我目前太害怕改变任何东西,因为担心它再次破裂:

def path_iterator(paths):
    for p in paths:
        print("yielding")
        yield p.open("r").read(25)

获取迭代器、生成器或路径列表:

my_files = Path("/data/train").glob("*.txt")

这被包裹在我们的...function从上面,并传递到nlp.pipe。输入发电机,输出发电机。这batch_size=5这里是必需的,否则会陷入先读取所有文件的坏习惯:

doc = nlp.pipe(path_iterator(my_paths), batch_size=5)

重要的部分,也是我们做这一切的原因,是到现在为止什么也没发生。我们不会等待处理一千个文件或其他任何事情。这种情况只会发生一经请求,当你开始阅读时docs:

for d in doc:
    print("A document!")

您将看到交替的五个块(我们的batch_size,上面)“Yielding”和“A document”。现在它是一个实际的管道,启动后很快就会开始出现数据。

虽然我目前运行的版本稍旧,但致命一击是多处理:

# For those with these new AMD CPUs with hundreds of cores
doc = nlp.pipe(path_iterator(my_paths), batch_size=5, n_process=64) 
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

读取 spacy 中的文本文件语料库 的相关文章

  • 希伯来语中的稀疏句子标记化错误

    尝试对希伯来语使用稀疏句子标记 import spacy nlp spacy load he doc nlp text sents list doc sents I get Warning no model found for he Onl
  • 在 macOS 中通过 Python 访问进程的压缩 RAM(顶部的 CMPRS)的方法?

    我试图弄清楚如何从 Python 访问任何给定进程占用的实际 RAM 量 我发现 psutil Process PID memory info rss 工作得很好 直到操作系统决定开始压缩某些进程的 RAM 然后 所有的 memory in
  • python os.fork 使用相同的 python 解释器吗?

    据我所知 Python 中的线程使用相同的 Python 解释器实例 我的问题是与创建的流程相同os fork 或者每个进程创建的os fork有自己的翻译吗 每当你 fork 时 整个 Python 进程都会在内存中复制 包括Python
  • nltk 标记化和缩写

    我用 nltk 对文本进行标记 只是将句子输入到 wordpunct tokenizer 中 这会拆分缩写 例如 don t 到 don t 但我想将它们保留为一个单词 我正在改进我的方法 以实现更精确的文本标记化 因此我需要更深入地研究
  • spacy 如何使用词嵌入进行命名实体识别 (NER)?

    我正在尝试使用以下方法训练 NER 模型spaCy识别位置 人 名和组织 我试图理解如何spaCy识别文本中的实体 但我无法找到答案 从这个问题 https github com explosion spaCy issues 491在 Gi
  • Rasa core 和 Rasa nlu 之间的区别

    我试图理解之间的区别拉莎核心 https core rasa ai and Rasa NLU https nlu rasa ai installation html从官方文档看的 但我不太明白 我的理解是Rasa core用于引导对话流程
  • Python NLP 英式英语与美式英语

    我目前正在用Python 进行NLP 工作 然而 在我的语料库中 既有英式英语也有美式英语 实现 实现 我正在考虑将英式英语转换为美式英语 但是 我没有找到一个好的工具 包来做到这一点 有什么建议么 我也找不到包 但试试这个 请注意 我必须
  • 在 Python 中识别大型字符串列表中的项目之间的文本相似性的最有效方法是什么?

    下面的代码实现了我想要实现的结果 有一个称为 引理 的字符串列表 其中包含特定类别单词的可接受形式 另一个列表称为 形式 包含在不同时期和特定语言的不同方言的大量文本中发现的单词的许多拼写变体 对于 forms 中的每个单词 我想获取 le
  • 如何从Python中的阿拉伯字符串中删除英文文本?

    我有一个带有英文文本和标点符号的阿拉伯字符串 我需要过滤阿拉伯文本 我尝试使用 sting 删除标点符号和英语单词 但是 我失去了阿拉伯语单词之间的空格 我哪里错了 import string exclude set string punc
  • 关于在 Flask 端点内使用多处理(或多线程)的建议是什么?

    我知道应用程序服务器可以配置为 根据请求启动新流程 每个请求启动新线程 这个问题是关于在 Flask 端点内使用 python 多处理 或多线程 代码 例如 假设我想使用 python 多处理来进行 CPU 密集型工作 或者使用多线程来进行
  • Spacy提取特定名词短语

    我可以在 python 中使用 spacy 来查找具有特定邻居的 NP 吗 我想要文本中前后都有动词的名词短语 您可以合并名词短语 这样它们就不会单独标记化 分析依存解析树 查看相邻标记的 POS gt gt gt import spacy
  • 使用 flow_from_dataframe y_col 的正确“值”是什么

    我正在用 pandas 读取 csv 文件 并给出存储在中的列名称colname colnames file label Read data from file data pd read csv Hand Annotations 2 csv
  • 池化与随时间池化

    我从概念上理解最大 总和池中发生的情况作为 CNN 层操作 但我看到这个术语 随时间变化的最大池 或 随时间变化的总和池 例如 用于句子分类的卷积神经网络 https arxiv org pdf 1408 5882 pdfYoon Kim
  • 无法在配备arm M1的Macbook上安装spaCy

    尝试使用 pip 在 M1 Mac 上安装 spaCy pip install spacy apple 出现错误 pip subprocess to install build dependencies did not run succes
  • 如何在 bertopic 建模中获取每个主题的所有文档

    我有一个数据集并尝试使用 berTopic 建模将其转换为主题 但问题是 我无法获取主题的所有文档 berTopic 每个主题仅返回 3 个文档 topic model BERTopic verbose True embedding mod
  • 在 Python 中共享多处理内存的更好方法?

    我已经解决这个问题一周了 它变得非常令人沮丧 因为每次我实现一个更简单但相似规模的示例来说明我需要做的事情时 事实证明多重处理都会把它搞砸 它处理共享内存的方式让我感到困惑 因为它非常有限 很快就会变得无用 所以我的问题的基本描述是 我需要
  • ReferenceError:regeneratorRuntime未定义(但在范围内工作)

    我遇到过这种奇怪的情况 ReferenceError regeneratorRuntime is not defined 我已经设法在一个非常小的设置中重现 与同一问题上的类似问题相比 并且还注意到一些奇怪的行为 具体取决于是否使用范围 以
  • Spacy 实体规则不适用于基数(社会安全号码)

    我已使用实体规则为社会保障号添加新标签 即使设置了 overwrite ents true 但它仍然无法识别 我验证了正则表达式是正确的 不知道我还需要做什么 我之前尝试过 ner 但结果相同 text My name is yuyyvb
  • Python:Goslate 翻译请求返回“503:服务不可用”[关闭]

    Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案 我们不允许提出寻求书籍 工具 软件库等推荐的问题 您可以编辑问题 以便用事实和引文来回答 这个问题似乎不是关于主要由程序员使用的特定编程问
  • NLTK:查找单词大小为 2k 的上下文

    我有一个语料库 我有一个词 对于语料库中该单词的每次出现 我想获取一个包含该单词之前的 k 个单词和该单词之后的 k 个单词的列表 我在算法上做得很好 见下文 但我想知道 NLTK 是否提供了一些我错过的功能来满足我的需求 def size

随机推荐

  • Java Neo4J 内存不足

    这有点像这样 Neo4j 内存不足问题 https stackoverflow com questions 2927329 neo4j outofmemory problem 但它已经过时了 而且据我所知 解决方案显然也已经过时了 所以我试
  • 为什么将我的视图控制器添加到导航控制器似乎会干扰我的约束?

    由于我发现有时很难从故事板布局中获得我所期望的结果 因此我正在尝试一些程序限制 我知道从这里开始会更加困难 但希望 最终游戏 能够实现方法更加有效 当我在简单的 viewController mainView centerView 组合上使
  • JFrame 中的图像相互覆盖,而不是相互显示两个图像[重复]

    这个问题在这里已经有答案了 public class Board extends JFrame public void bd JFrame frame new JFrame JLabel background1 new JLabel new
  • Cassandra 中用于差异比较的 Merkle 树

    我正在读一本document http docs datastax com en cassandra 3 0 cassandra operations opsRepairNodesManualRepair html关于卡桑德拉的修复 它说
  • Android studio 1.1.0 设置 minifyEnabled true 导致应用程序出现问题

    这是我的 gradle build 文件 defaultConfig minSdkVersion 15 targetSdkVersion 21 versionCode 2 versionName 1 0 buildTypes release
  • 如何在 Python 中对 URL 参数进行百分比编码?

    If I do url http example com p urllib quote query 它不编码 to 2F 破坏 OAuth 规范化 它不处理 Unicode 它会抛出异常 有更好的图书馆吗 From Python 3 文档
  • 如何使“setup.py bdist_egg”忽略特定源文件?

    我正在尝试为 django 应用程序构建一个包 但排除所有测试模块 我尝试过设置 exclude tests tests tests tests on find packages并定义一个MANIFEST in 但测试始终会被编译并包含在捆
  • Google SMS Retriever API 无法检索 SMS 消息

    我正在尝试使用 Google 的短信检索器 API 进行自动短信验证 我已按照指示进行操作here https developers google com identity sms retriever overview但我的应用程序没有收到
  • 在WebView中加载本地html?

    我想将本地 html 加载到 WebView 中而不使用 file 因为这不允许 cookie 有没有办法使用 localhost 之类的东西 其次 我找不到在 getSettings 中启用 cookie 的方法 因为使用 file 时不
  • 如何限制只有一台机器才能访问Web应用程序?

    我需要确保访问我的 Web 应用程序的每个用户都只能从一台计算机上执行此操作 因此 100 个用户意味着 100 台计算机 最好的解决方案是什么 在首次登录时检测并存储 IP 是个好主意吗 我认为即使在会话的生命周期内 IP 也可能会发生变
  • 如何摆脱“允许<网站>运行'silverlight'?”在 webdriver 中使用 firefoxprofile 对 Firefox 发出警报

    当使用机器人 api 拖放时 我的鼠标位置受到询问 允许运行 silverlight 的警报的干扰 在全屏模式下运行 firefox 甚至我的 webdriver api 也会受到此警报的影响 因为原本在一个按钮上发生的点击却在另一个按钮上
  • UIViewController -viewDidLoad 没有被调用

    作为 Cocoa 的新手 我遇到了一些问题Interface Builder UIViewController和朋友 我有一个UIViewController子类具有UIView在 xib 中定义 并将控制器的视图出口连接到视图 xib 的
  • WooCommerce 添加到购物车验证:阻止添加到购物车

    我遇到了 woocommerce 的问题 我花了几天时间试图解决 我正在为一个人创建一个网站 他希望我在产品页面上添加自定义输入 我自己无法做到这一点 所以我在网上使用了自由职业者 在产品页面上 我有一个添加到购物车按钮 数量输入和日期输入
  • 在 VBA 中搜索单元格引用的公式

    在 VBA 中 我想搜索 Excel 公式 字符串 以查找单元格引用 具体来说 我想找到字符串中存在相对单元格引用 任何相对单元格引用 而不是特定单元格引用 或混合单元格引用的位置 我不需要找到绝对的单元格引用 尽管我可以检查并忽略它们 我
  • 在 Windows 10 中使用 PS 将程序固定到任务栏

    我正在尝试使用以下代码将程序固定到 Windows 10 RTM 中的任务栏 shell new object com Shell Application folder shell Namespace Join Path env Syste
  • 更新浏览器地址栏而不重新加载

    我喜欢 facebook 在图像之间滚动时更改浏览器地址栏 URL 的方式 以及它在 IE7 上的工作方式 但是 我只找到了有关如何在 HTML5 浏览器上执行此操作的信息 并且我想支持 IE7 由于这是一个 HTML5 解决方案 因此如下
  • 如何为Notepad++编写宏?

    我想为 Notepad 编写一个宏 它应该分别用 char4 char5 char6 替换 char1 char2 char3 Notepad 中的宏只是一堆编码操作 您开始录制 对缓冲区进行操作 也许激活菜单 停止录制然后播放宏 经过调查
  • java中如何将日期时间转换为时间戳

    论坛会员 我在 java 中遇到一个日期时间问题 实际上我正在收到开始日期格式为 2012 02 27T01 10 10我想将收到的日期插入到具有日期时间数据类型的数据库中 实际上我尝试通过下面的代码将收到的开始日期转换为日期时间 Stri
  • Android Eclipse Lint API 检查

    谢谢 P T 看起来像是问题的正确答案在 Eclipse 中构建多 SDK Android 应用程序而不会丢失编译时检查 https stackoverflow com questions 7642249 但是 当我尝试按照建议使用 Tar
  • 读取 spacy 中的文本文件语料库

    我看到的使用 spacy 的所有示例都只是在单个文本文件 尺寸很小 中读取 如何将文本文件语料库加载到 spacy 中 我可以通过腌制语料库中的所有文本来使用 textacy 来做到这一点 docs textacy io spacy rea