NLTK 被调用并收到错误“punkt”在 databricks pyspark 上未找到

2024-01-08

我想调用 NLTK 通过 pyspark 在 databricks 上做一些 NLP。我已经从 databricks 的库选项卡安装了 NLTK。它应该可以从所有节点访问。

我的 py3 代码：

 import pyspark.sql.functions as F
 from pyspark.sql.types import StringType
 import nltk
 nltk.download('punkt')
 

 def get_keywords1(col):
     sentences = []
     sentence = nltk.sent_tokenize(col)
      

 get_keywords_udf = F.udf(get_keywords1, StringType())

我运行上面的代码并得到：

 [nltk_data] Downloading package punkt to /root/nltk_data...
 [nltk_data]   Package punkt is already up-to-date!

当我运行以下代码时：

 t = spark.createDataFrame(
 [(2010, 1, 'rdc', 'a book'), (2010, 1, 'rdc','a car'),
  (2007, 6, 'utw', 'a house'), (2007, 6, 'utw','a hotel')
 ], 
 ("year", "month", "u_id", "objects"))
 
 t1 = t.withColumn('keywords', get_keywords_udf('objects'))
 t1.show() # error here !

我收到错误：

 <span class="ansi-red-fg">&gt;&gt;&gt; import nltk

 PythonException: 
  An exception was thrown from the Python worker. Please see the stack trace below.
 Traceback (most recent call last):
  
 LookupError: 
 **********************************************************************
 Resource punkt not found.
 Please use the NLTK Downloader to obtain the resource:

 >>> import nltk
 >>> nltk.download('punkt')

 For more information see: https://www.nltk.org/data.html

Attempted to load tokenizers/punkt/PY3/english.pickle

Searched in:
- '/root/nltk_data'
- '/databricks/python/nltk_data'
- '/databricks/python/share/nltk_data'
- '/databricks/python/lib/nltk_data'
- '/usr/share/nltk_data'
- '/usr/local/share/nltk_data'
- '/usr/lib/nltk_data'
- '/usr/local/lib/nltk_data'
- ''

我已经下载了“朋克”。它位于

/root/nltk_data/tokenizers

我已经使用文件夹位置更新了 Spark 环境中的 PATH。

为什么找不到？

解决方案位于NLTK。未找到朋克 https://stackoverflow.com/questions/55297145/nltk-punkt-not-found和这个如何从代码中配置nltk数据目录？ https://stackoverflow.com/questions/3522372/how-to-config-nltk-data-directory-from-code/22987374#22987374但他们都不适合我。

我已尝试更新

 nltk.data.path.append('/root/nltk_data/tokenizers/')

这是行不通的。看来nltk看不到新添加的路径！

我还将 punkz 复制到 nltk 将搜索的路径中。

cp -r /root/nltk_data/tokenizers/punkt /root/nltk_data

但是，nltk仍然看不到它。

thanks

当启动 Databricks 单节点集群时，这将工作得很好。通过 pip 安装 nltk，然后使用 nltk.download 模块来获取预构建的模型/文本。

假设：用户正在 Databricks 笔记本中使用 Python 作为默认语言进行编程。

当启动多节点集群时，您会遇到一些问题。

您正在注册一个依赖于另一个模块的代码的 UDF。为了使 UDF 在集群中的每个节点上工作，需要在集群级别安装模块（即安装在驱动程序和所有工作节点上的 nltk）。该模块可以在集群启动时通过 init 脚本进行安装，也可以通过 Databricks 计算部分中的库部分进行安装。更多关于这里......（我还在下面给出了代码示例）https://learn.microsoft.com/enus/azure/databricks/libraries/cluster-libraries https://learn.microsoft.com/enus/azure/databricks/libraries/cluster-libraries.

现在，当您运行 UDF 时，该模块将存在于集群的所有节点上。
Using nltk.download()获取模块引用的数据。当我们在多节点集群中交互执行 nltk.download() 时，它只会下载到驱动程序节点。因此，当您的 UDF 在其他节点上执行时，这些节点将不会在默认情况下查找的指定路径中包含所需的引用。查看这些路径默认路径运行nltk.data.path.

为了克服这个问题，我探索了两种可能性。其中之一有效。

（不起作用）使用初始化脚本安装 nltk，然后在安装后在同一初始化脚本中通过单行 bash python 表达式调用 nltk.download，如下所示...
```
python -c 'import nltk; nltk.download('all');'
```
我遇到过安装了 nltk 但安装后找不到的问题。我假设虚拟环境在这里发挥作用。
（有效）使用 init 脚本安装 nltk。
1. 创建脚本
```
dbutils.fs.put('/dbfs/databricks/scripts/nltk-install.sh', """ 
#!/bin/bash
pip install nltk""", True)
```
1. 一探究竟
```
%sh
head '/dbfs/databricks/scripts/nltk-install.sh'
```
1. 配置集群在启动时运行 init 脚本Databricks 集群初始化脚本配置 https://i.stack.imgur.com/DH2jZ.png
2. 在集群配置中创建环境变量 NLTK_DATA="/dbfs/databricks/nltk_data/"。 nltk 包使用它来搜索数据/模型依赖项。Databricks 集群环境变量配置 https://i.stack.imgur.com/cdD3h.png

启动集群。

安装完毕并且集群正在运行后，请检查以确保环境变量已正确创建。

import os 
os.environ.get("NLTK_DATA")

然后检查以确保 nltk 指向正确的路径。

import nltk
nltk.data.path

如果 '/dbfs/databricks/nltk_data/ 在列表中，我们就可以开始了。下载您需要的东西。

nltk.download('all', download_dir="/dbfs/databricks/nltk_data/")

请注意，我们将依赖项下载到 Databricks 存储中。现在每个节点都可以访问 nltk 默认依赖项。因为我们在导入 nltk 时在集群创建时指定了环境变量 NLTK_DATA，所以它将在该目录中查找。这里唯一的区别是我们现在将 nltk 指向我们的 Databricks 存储，每个节点都可以访问该存储。

现在，由于数据在集群启动时存在于已安装的存储中，因此我们不需要每次都重新下载数据。

遵循这些步骤后，您应该可以使用 nltk 及其所有默认数据/模型了。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

NLTK 被调用并收到错误“punkt”在 databricks pyspark 上未找到的相关文章

如何在Spark结构化流中指定批处理间隔？

我正在使用 Spark 结构化流并遇到问题在 StreamingContext DStreams 中我们可以定义批处理间隔如下所示 from pyspark streaming import StreamingContext ssc
Spark的distinct()函数是否仅对每个分区中的不同元组进行洗牌

据我了解 distinct 哈希分区 RDD 来识别唯一键但它是否针对仅移动每个分区的不同元组进行了优化想象一个具有以下分区的 RDD 1 2 2 1 4 2 2 1 3 3 5 4 5 5 5 在此 RDD 上的不同键上所有重复键
使用 Pycharm 在 Windows 下启动应用程序时出现 UnicodeDecodeError

问题是当我尝试启动应用程序 app py 时我收到以下错误 UnicodeDecodeError utf 8 编解码器无法解码位置 5 中的字节 0xb3 起始字节无效整个文件app py coding utf 8 from flask
如何在 python 3.x 中使用 string.replace()

The string replace 在 python 3 x 上已弃用这样做的新方法是什么与 2 x 一样使用str replace https docs python org library stdtypes html str r
在f字符串中转义字符[重复]

这个问题在这里已经有答案了我遇到了以下问题f string gt gt gt a hello how to print hello gt gt gt f a a gt gt gt f a File
neo4j - python 驱动程序，服务不可用

我对 neo4j 非常陌生我正在尝试建立从 python3 6 到 neo4j 的连接我已经安装了驱动程序并且刚刚开始执行第一步导入请求导入操作系统导入时间导入urllib 从 neo4j v1 导入 GraphDatabas
将 JSON 文件读入 Spark 时出现 _corrupt_record 错误

我有这个 JSON 文件 a 1 b 2 这是通过Python json dump方法获得的现在我想使用 pyspark 将此文件读入 Spark 中的 DataFrame 根据文档我正在这样做 sc SparkContext sql
Django model.foreignKey 并返回 self.text 错误

所以我正在 Django 中处理 model py 但遇到了 2 个 pylint 错误我不明白为什么这是 pylint 的问题还是我在代码中做错了什么 E1120 No value for argument on delete in
删除aws beanstalk上的uuid python包

这是针对所提出问题的后续帖子问题here https stackoverflow com questions 44421761 flask beanstalk deployment errors 以防万一对其他人有用自从第一篇文章以来
捕获 subprocess.run() 的输入

我在 Windows 上有一个交互式命令行 exe 文件是由其他人编写的当程序出现异常时它会终止并且我对程序的所有输入都会丢失所以我正在编写一个 python 程序它调用一个阻塞子进程subprocess run 并捕获所有输入
python 排列有问题

我在排列方面遇到一些问题当谈到Python时我真的是一个大菜鸟所以任何帮助将不胜感激假设我在文本文件中有一个范围为 1 6 的列表例如它看起来像 1 2 3 4 5 6 我想打开所述 txt 文件并计算这 6 个数字中 N 的所
如何使用Python3、Selenium Chrome WebDriver在第一次请求之前预加载cookie？

是否可以使用添加cookieadd cookie 对于一个域比如说stackoverflow com在使用 Selenium Chrome WebDriver 进行实际请求之前get 到域上的页面stackoverflow com 尝试时
multiprocessing.Queue 中的 ctx 参数

我正在尝试使用 multiprocessing Queue 模块中的队列实施 https docs python org 3 4 library multiprocessing html exchang objects Between p
Flask-Admin 具有多对多关系中的附加字段

我有两个表产品成分和产品成分 class ProductIngredient db Model tablename product ingredient id db Column db Integer primary key Tru
带有 pySpark 的 GraphFrames

我想将 GraphFrames 与 PySpark 一起使用目前在 Google Dataproc 上使用 Spark v2 3 3 安装 GraphFrames 后 pip install graphframes 我尝试运行以下代码 f
如何在 __init__ 中使用await设置类属性

我如何定义一个类await在构造函数或类体中例如我想要的 import asyncio some code class Foo object async def init self settings self settings setti
我应该使用 Python 双端队列还是列表作为堆栈？ [复制]

这个问题在这里已经有答案了我想要一个可以用作堆栈的 Python 对象使用双端队列还是列表更好元素数量较少还是数量较多有什么区别您的情况可能会根据您的应用程序和具体用例而有所不同但在一般情况下列表非常适合堆栈 append is
嵌套列表的重叠会产生不必要的间隙

我有一个包含三个列表的嵌套这些列表由 for 循环填充并且填充由 if 条件控制第一次迭代后它可能类似于以下示例 a 1 2 0 0 0 0 0 0 4 5 0 0 0 0 0 0 6 7 根据条件它们不重叠在第二次迭代之后新
无法导入 langchain.agents.load_tools

我正在尝试使用 LangChain Agents 但无法导入 load tools 版本 langchain 0 0 27 我尝试过这些 from langchain agents import initialize agent from
每当使用 import cv2 时 OpenCV 都会出错

我在终端上使用 pip3 install opencv contrib python 安装了 cv2 并且它工作了但是每当我尝试导入 cv2 或运行导入了 cv2 的 vscode 文件时在 python IDLE 上它都会说 Trac

随机推荐

IOS Swift - 自定义相机覆盖

你好我想在我的应用程序中打开一个摄像头如下所示我想仅在该部分的中间打开相机以便用户只能在矩形部分中拍摄快照我正在使用的代码是这样的 import UIKit import AVFoundation class TakeProduc
python 中对象的 __init__() 方法做什么？ [复制]

这个问题在这里已经有答案了在阅读 OpenStack 代码时我遇到了这个问题一个名为 Service 的类继承了基类 object 然后在Service的 init 方法对象的 init 叫做相关代码如下所示类定义 class
在 Selenium 2 中截取测试屏幕截图的最佳方式？

我需要一种方法来截取功能测试的屏幕截图现在我正在使用带有 C 绑定的 Selenium 2 我非常想在测试结束时截取屏幕截图以确保显示所需的页面你们知道有什么特定的工具可以合并到我的 C 代码中来触发屏幕截图吗我找不到内置的 Sel
检测 navigator.online 上的更改

如何检测导航器是否将您的状态更改为在线离线就像是 var oldState navigator onLine window navigator onlinechange function evnt newState alert your
RPM 规范文件可以“包含”其他文件吗？

RPM 规范中有一种 include 指令吗我无法通过谷歌搜索找到答案动机我有一个 RPM 规范模板构建过程会使用版本修订版和其他特定于构建的数据对其进行修改这是由sed现在我认为如果规范会更干净 include特定于构建的定
使用 javascript onClick 显示 Bootstrap Modal

我需要能够使用以下命令打开 Twitter 引导模式窗口onClick 或类似的功能只需要输入代码即可onClick 我正在尝试制作一个可点击的div打开模式代码摘录部门代码 div class span4 proj div 模态di
如何在swift语言中使用CC_MD5方法

在 Objective C 中我们可以像这样对字符串进行哈希处理 const char cStr someString UTF8String unsigned char result 16 CC MD5 cStr strlen cStr
ASP.NET MVC 应用程序中的单例类或具有静态方法的类[重复]

这个问题在这里已经有答案了可能的重复 ASP NET 单例 https stackoverflow com questions 2134511 asp net singleton 我知道单例类和具有静态属性方法的类之间的一般差异但我想
UITextView字体为零

我在故事板中创建了一个字体大小为 14 的 UITextView 并将其连接到 ViewController 的DetailDescriptionLabel 属性这段代码在viewDidLoad中 self detailDescripti
通过 fftw_mpi_r2c_2d 和 fftw_mpi_c2r_2d 输出不正确

我编写了一个简单的测试程序以便在 2d 域使用 Fortran 中使用 MPI 实现 FFTW 该域的宽度为 Ny x Nx 并在第二个 x 索引中进行分区在正确我相信声明和分配变量和计划之后我调用 fftw mpi r2c 2
最简单的源代码控制——你用什么？

我正在开发一个独立项目自己编写所有代码因此不需要协作但是我确实需要以下功能检查当前版本并附上评论为版本分配标签使用标签检索版本未托管意味着我将存储库保存在本地计算机上免费开源有一个漂亮的 GUI 而不是命令行我认
如果我读取键不存在的映射值，会发生什么情况？

map
在终结器中调用 GC.SuppressFinalize 是否无害？

因为finalizer IDisposable以及所谓的 IDisposable模式主题往往会带来大量故作姿态武断和好战的观点 not 分别 here https stackoverflow com questions 36344293
如何重置 Android Studio

我想重置Android Studio 0 2 13到默认状态这意味着重置所有设置删除所有项目所有 gradle 文件以便它像全新安装一样我必须遵循哪些步骤才能实现这一目标我只知道如何在 Windows 上执行此操作但在任何操作
SimpleDateFormat(String template, Locale locale)，例如用于 ASCII 日期的 Locale.US

Issue 直接使用 SimpleDateFormat 无需显式语言环境Id 简单日期格式 SimpleDateFormat format new SimpleDateFormat yyyy MM dd HH mm ss 为什么是要获取本
如何高效地将大数据加载到pandas中？ [复制]

这个问题在这里已经有答案了我正在使用一个非常广泛的数据集 1005 行 590 718 列 1 2G 将如此大的数据集加载到 pandas 数据框中会完全由于内存不足而导致代码失败我知道 Spark 可能是 Pandas 处理大型数据集
在 Matlab 中对一维向量上的范围选择进行向量化

这可能非常简单但我无法弄清楚我想创建一个范围矩阵我可以使用以下循环来完成此操作 a 0 10 22 35 42 sample initial ranges for i 1 length a b i a i a i 5 end b 0
swift inout 参数是变量还是指针？

在下面的代码中使用 swift inout 参数我感觉有点迷失 var shouldContinue Bool true func doSomeWork1 shouldContinue inout Bool while shouldCont
Ionic firebase 令牌始终为 null 并且没有令牌刷新

我在 ionic firebase 模块上遇到了麻烦 https ionicframework com docs native firebase https ionicframework com docs native firebase 在
NLTK 被调用并收到错误“punkt”在 databricks pyspark 上未找到

我想调用 NLTK 通过 pyspark 在 databricks 上做一些 NLP 我已经从 databricks 的库选项卡安装了 NLTK 它应该可以从所有节点访问我的 py3 代码 import pyspark sql funct

NLTK 被调用并收到错误“punkt”在 databricks pyspark 上未找到

NLTK 被调用并收到错误“punkt”在 databricks pyspark 上未找到 的相关文章

随机推荐

热门标签

NLTK 被调用并收到错误“punkt”在 databricks pyspark 上未找到的相关文章