将 nlp.pipe() 与 spaCy 的预分段和预标记化文本结合使用

2024-01-09

我正在尝试标记和解析已经分成句子并且已经被标记化的文本。举个例子:

sents = [['I', 'like', 'cookies', '.'], ['Do', 'you', '?']]

处理批量文本的最快方法是.pipe()。但是,我不清楚如何将其与预标记和预分段的文本一起使用。性能是这里的关键。我尝试了以下操作,但这引发了错误

docs = [nlp.tokenizer.tokens_from_list(sentence) for sentence in sents]
nlp.tagger(docs)
nlp.parser(docs)

Trace:

Traceback (most recent call last):
  File "C:\Python\Python37\Lib\multiprocessing\pool.py", line 121, in worker
    result = (True, func(*args, **kwds))
  File "C:\Python\projects\PreDicT\predicting-wte\build_id_dictionary.py", line 204, in process_batch
    self.nlp.tagger(docs)
  File "pipes.pyx", line 377, in spacy.pipeline.pipes.Tagger.__call__
  File "pipes.pyx", line 396, in spacy.pipeline.pipes.Tagger.predict
  File "C:\Users\bmvroy\.virtualenvs\predicting-wte-YKqW76ba\lib\site-packages\thinc\neural\_classes\model.py", line 169, in __call__
    return self.predict(x)
  File "C:\Users\bmvroy\.virtualenvs\predicting-wte-YKqW76ba\lib\site-packages\thinc\neural\_classes\feed_forward.py", line 40, in predict
    X = layer(X)
  File "C:\Users\bmvroy\.virtualenvs\predicting-wte-YKqW76ba\lib\site-packages\thinc\neural\_classes\model.py", line 169, in __call__
    return self.predict(x)
  File "C:\Users\bmvroy\.virtualenvs\predicting-wte-YKqW76ba\lib\site-packages\thinc\neural\_classes\model.py", line 133, in predict
    y, _ = self.begin_update(X, drop=None)
  File "C:\Users\bmvroy\.virtualenvs\predicting-wte-YKqW76ba\lib\site-packages\thinc\neural\_classes\feature_extracter.py", line 14, in begin_update
    features = [self._get_feats(doc) for doc in docs]
  File "C:\Users\bmvroy\.virtualenvs\predicting-wte-YKqW76ba\lib\site-packages\thinc\neural\_classes\feature_extracter.py", line 14, in <listcomp>
    features = [self._get_feats(doc) for doc in docs]
  File "C:\Users\bmvroy\.virtualenvs\predicting-wte-YKqW76ba\lib\site-packages\thinc\neural\_classes\feature_extracter.py", line 21, in _get_feats
    arr = doc.doc.to_array(self.attrs)[doc.start : doc.end]
AttributeError: 'list' object has no attribute 'doc'

只需将管道中的默认分词器替换为nlp.tokenizer.tokens_from_list而不是单独调用它:

import spacy
nlp = spacy.load('en')
nlp.tokenizer = nlp.tokenizer.tokens_from_list

for doc in nlp.pipe([['I', 'like', 'cookies', '.'], ['Do', 'you', '?']]):
    for token in doc:
        print(token, token.pos_)

Output:

I PRON
like VERB
cookies NOUN
. PUNCT
Do VERB
you PRON
? PUNCT
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

将 nlp.pipe() 与 spaCy 的预分段和预标记化文本结合使用 的相关文章

  • 纯粹依赖 pyproject.toml 有哪些缺点?

    假设您有一个 Python 程序 仅使用它就可以成功打包pyproject toml 有什么缺点 为什么使用setup py or setup cfg在这种情况下 没有 没有什么坏处setup py 只是在某些特定情况下 包装的某些元素无法
  • 2 列 pandas 上的地图

    我有一个数据框 如下所示 Col1 Col2 0 A PY 1 B PA 2 C PB 3 B PB 以及这个系列 Value Col1 Col2 A PY 20 B PB 30 我想做一个映射 如果该系列有一个索引 仅前 Col1 那么它
  • Matplotlib 轮廓图有 3 种颜色

    我想用 3 种不同的颜色绘制等高线图 到目前为止 我的代码如下所示 import numpy as np import matplotlib pyplot as plt xMin 0 xMax 3 xList np linspace xMi
  • API 端点的 Django 子域配置

    我已经建立了一个 Django 项目 它使用django rest framework提供一些 ReST 功能 网站和其他功能都运行良好 然而有一个小问题 我需要我的 API 端点指向一个不同的子域 例如 当用户访问该网站时 他 她可以根据
  • 是否可以模拟 Python 3.6 中的内置 len() 函数?

    是否可以模拟内置len Python 3 6 中的函数 我有一个类定义了一个简单的方法 该方法依赖于len 函数如下 class MyLenFunc object def is longer than three characters se
  • Spark MLlib - 训练隐式警告

    我在使用时不断看到这些警告trainImplicit WARN TaskSetManager Stage 246 contains a task of very large size 208 KB The maximum recommend
  • Python 在 chroot 中运行时出现错误

    我尝试在 chroot 中运行一些 Python 程序 但出现以下错误 Could not find platform independent libraries
  • Python 中的安全解除引用

    Groovy 有一个很好的安全取消引用运算符 这有助于避免 NullPointerExceptions variable method The method仅当以下情况时才会被调用variable is not null 有没有办法在 Py
  • Python的reduce()短路了吗?

    If I do result reduce operator and False 1000 得到第一个结果后它会停止吗 自从False anything False 相似地 result reduce operator or True 10
  • 将 API 数据存储到 DataFrame 中

    我正在运行 Python 脚本来从 Interactive Brokers API 收集金融市场数据 连接到API后 终端打印出请求的历史数据 如何将数据保存到数据帧中而不是在终端中流式传输 from ibapi wrapper impor
  • Python sqlite3游标没有属性commit

    当我运行这段代码时 path Scripts wallpapers single png conn sqlite3 connect Users Heaven Library Application Support Dock desktopp
  • conda 无法从 yml 创建环境

    我尝试运行下面的代码来从 YAML 文件创建虚拟 Python 环境 我在 Ubuntu 服务器上的命令行中运行代码 虚拟环境名为 py36 当我运行下面的代码时 我收到下面的消息 环境也没有被创建 这个问题是因为我有几个必须使用 pip
  • 如何在 ReportLab 段落中插入回车符?

    有没有办法在 ReportLab 的段落中插入回车符 我试图将 n 连接到我的段落字符串 但这不起作用 Title Paragraph Title n Page myStyle 我想要这样做 因为我将名称放入单元格中 并且想要控制单元格中的
  • 在Python中创建一个新表

    我正在尝试从数控机床中提取数据 事件每毫秒发生一次 我需要过滤掉一些用管道 分隔的变量分隔符 PuTTy exe 程序生成的日志文件 我尝试阅读熊猫 但列不在同一位置 df pd read table data log sep 日志文件的一
  • 如何使用 Pandas 将巨大的 CSV 转换为 SQLite?

    我有一个巨大的表 大约 60 GB 采用存档的 CSV 文件形式 我想将其转换为 SQLite 文件 我现在所做的事情如下 import pandas import sqlite3 cnx sqlite3 connect db sqlite
  • 网页抓取 - 前往第 2 页

    如何访问数据集的第二页 无论我做什么 它都只返回第 1 页 import bs4 from urllib request import urlopen as uReq from bs4 import BeautifulSoup as sou
  • 一起使用 Flask 和 Tornado?

    我是以下的忠实粉丝Flask 部分是因为它很简单 部分是因为它有很多扩展 http flask pocoo org extensions 然而 Flask 是为了在 WSGI 环境中使用而设计的 而 WSGI 不是非阻塞的 所以 我相信 它
  • Spark中的count和collect函数抛出IllegalArgumentException

    当我使用时抛出此异常时 我尝试在本地 Spark 上加载一个小数据集count 在 PySpark 中 take 似乎有效 我试图搜索这个问题 但没有找到原因 看来RDD的分区有问题 有任何想法吗 先感谢您 sc stop sc Spark
  • 如何向 SCons 构建添加预处理和后处理操作?

    我正在尝试在使用 SCons 构建项目时添加预处理和后处理操作 SConstruct 和 SConscript 文件位于项目的顶部 预处理动作 生成代码 通过调用不同的工具 gt 不知道在此预处理之后将生成的确切文件 可以创建用于决定生成哪
  • 从另一个 python 脚本获取返回信息

    我在 Linux 上 我有一个 python 脚本 我想从另一个 python 脚本调用它 我不想将其作为模块导入 为了一层安全性 现在为了学术练习 因为我想弄清楚这一点 我实际上想让一个脚本使用 os system 或另一个类似的函数 并

随机推荐

  • SwiftUI 卡翻转有两个视图

    我正在尝试在两个 SwiftUI 视图之间创建卡片翻转效果 单击原始视图时 它会像翻转卡片一样在 Y 轴上 3D 旋转 并且第二个视图应在 90 度后开始可见 Using rotation3DEffect 我可以轻松旋转视图 问题是anim
  • 软件包升级后,Pip 在 Ubuntu 14.4 上损坏

    我试图在 EC2 ubuntu 14 4 实例上升级 python requests 包 执行此操作后 我运行并没有抛出错误 pip freeze and got ubuntu ip 172 31 28 196 pip freeze Tra
  • 将 ExecutorService 与多线程版本的合并排序结合使用

    我正在解决一个家庭作业问题 我必须创建一个多线程版本的合并排序 我能够实现它 但我无法停止线程的创建 我研究过使用 ExecutorService 来限制线程的创建 但我不知道如何在当前代码中实现它 这是我当前的多线程合并排序 我们需要实施
  • 将 SQL Server 2000 安全地暴露在 Internet 上

    我有一个 SQL Server 2000 机器 我想将其放在 Internet 上 以便开发人员无需 VPN 访问即可进行远程连接 最安全的方法是什么 这可能是暂时的 例如每隔一段时间 但这绝对是必要的 Thanks Rob 简短的回答 不
  • 将长字符串分割成多个字符串SQL

    所以基本上我希望将一根长绳子切成小块 但保持单词完整 因此 如果我在 JumpColumn 列中的 FoxTable 中有以下句子 棕色狐狸跳过了懒狗 然后懒狗跳过了棕色狐狸 我想在 SQL 中将其拆分为最多 20 个字符 包括空格 所以结
  • 生成网页的合理时间是多少?

    我正在开发网络应用程序 基于 Rails 3 我真的不喜欢生成页面所需的时间 根据显示的数据 它需要长达 2 5 秒甚至 4 秒 所以我只是想知道在应用程序中生成页面的平均合理时间是多少 假设您检查生成时间 例如这是 750 毫秒 然后想
  • 如何在 ef core 2 中使 contains 不区分大小写?

    我正在尝试通过搜索字符串过滤列表 它说在蓝色注释的文档中 https learn microsoft com en us aspnet core data ef mvc sort filter page that IQueryable 为您
  • 如何在 Pytorch 中展平“nn.Sequential”中的输入

    如何展平内部的输入nn Sequential Model nn Sequential x view x shape 0 1 nn Linear 784 256 nn ReLU nn Linear 256 128 nn ReLU nn Lin
  • eclipse 插件 (gef) 和图形可视化 (zest)

    我正在编写一个绘制有限状态系统的 eclipse 插件 由于它可能很大 我想附加一些现有的图形布局算法 例如分层布局 基于力的布局 来自动优化系统可视化 有没有办法集成我正在编写的插件 使用 GEF 编写 以便生成的编辑部分可以按照一些常见
  • 如何从 Scala 访问 Java 静态方法(给定该方法所在类的类型别名)

    给定类型别名type Cal java util Calendar怎样才能static getInstance方法可以访问吗 我在 Scala REPL 中尝试了以下操作 scala gt type Cal java util Calend
  • 为什么 Node.js 的运行需要 JavaScript 前端框架?

    当我们谈论 JavaScript vanilla 时 它指的是前端编程语言 它需要像 IIS Apache 或 nginx 等网络服务器来根据请求将内容传递给客户端 之后 JavaScript 在客户端浏览器上运行 但我发现的每个视频或文章
  • 如何从 vb.net 脚本打开 Solidworks、运行宏和关闭 Solidworks? [关闭]

    Closed 这个问题需要多问focused help closed questions 目前不接受答案 我正在solidworks 中运行一个VBA 宏 该宏停止工作并要求我在每次运行它时经过478 次循环迭代后重新启动Solidwork
  • Javascript ajax 将文本框文本发送到 ActionResult asp.net mvc

    Html
  • 搜索精确匹配 R 数据表

    我的问题是数据表包中的全局搜索栏 我正在尝试设置此全局搜索栏以查找完全匹配 有一些java查询基于此处的说明 搜索完全匹配并突出显示 jquery 数据表正则表达式 https stackoverflow com questions 297
  • 使用 Fabric JS 放大和缩小

    我正在使用 FabricJS 构建一个简单的图像编辑器 我几乎可以做任何我需要的事情 问题是实现缩放功能 据我所知 FabricJS 没有内置任何东西 所以我试图自己做 我在页面上放置了 2 个按钮 放大 和 缩小 单击它们分别激活 jQu
  • 如何在运行 Java 代码的 Visual Studio Code 上隐藏不需要的日志消息

    我正在使用 Visual Studio Code 编写 Java 程序 一切工作正常 除了运行代码时我总是收到不需要的消息 例如 我创建了一个非常简单且基本的Java项目 其中包含一个App java文件 在src文件夹中 默认包中 pub
  • Cloud Functions for Firebase - 从数据库触发器获取父数据

    是否有一种干净的内置方法可以直接引用数据库触发器上方节点的数据值 我知道我可以获得一个父引用 然后我可以查询该值 但如果有更简洁的方法来执行此操作 那就太好了 为了清楚起见 我想使用对象内的子节点作为触发器 当它发生时直接获取父对象的值 以
  • WPF 应用程序中的 SendKeys.Send 方法

    我正在尝试发送浏览器控件的击键 Ctrl t 但 SendKeys Send 在 WPF 应用程序中显示错误 我的问题是 我可以使用SendKeys Send WPF 应用程序中的方法 有没有其他方法可以发送自动击键 SendKeys 是
  • 迭代器和指针有什么区别[重复]

    这个问题在这里已经有答案了 所以我编写了这个程序并且它可以工作 但是我被告知我需要使用迭代器在我编写的函数中移动 我目前正在使用指针 但我认为它们基本上是相同的东西 如果有区别 迭代器是如何使用的 更新 所以我的理解是 迭代器与指针不同 即
  • 将 nlp.pipe() 与 spaCy 的预分段和预标记化文本结合使用

    我正在尝试标记和解析已经分成句子并且已经被标记化的文本 举个例子 sents I like cookies Do you 处理批量文本的最快方法是 pipe 但是 我不清楚如何将其与预标记和预分段的文本一起使用 性能是这里的关键 我尝试了以