如何使用 Jupyter + SparkR 和自定义 R 安装

2023-12-02

我正在使用 Dockerized 映像和 Jupyter Notebook 以及 SparkR 内核。当我创建 SparkR 笔记本时,它使用 Microsoft R (3.3.2) 安装,而不是普通的 CRAN R 安装 (3.2.3)。

我使用的 Docker 映像安装了一些自定义 R 库和 Python 包,但我没有显式安装 Microsoft R。无论我是否可以删除 Microsoft R 或将其并排放置,如何让我的 SparkR 内核使用 R 的自定义安装?


抛开与 Docker 相关的问题不谈,Jupyter 内核的设置是在名为kernel.json,驻留在特定目录中(每个内核一个),可以使用以下命令查看jupyter kernelspec list;例如,这是我的(Linux)机器上的情况:

$ jupyter kernelspec list
Available kernels:
  python2       /usr/lib/python2.7/site-packages/ipykernel/resources
  caffe         /usr/local/share/jupyter/kernels/caffe
  ir            /usr/local/share/jupyter/kernels/ir
  pyspark       /usr/local/share/jupyter/kernels/pyspark
  pyspark2      /usr/local/share/jupyter/kernels/pyspark2
  tensorflow    /usr/local/share/jupyter/kernels/tensorflow

再次作为示例,以下是kernel.json对于我的 R 内核(ir)

{
  "argv": ["/usr/lib64/R/bin/R", "--slave", "-e", "IRkernel::main()", "--args", "{connection_file}"],
  "display_name": "R 3.3.2",
  "language": "R"
}

这是我的相应文件pyspark2 kernel:

{
 "display_name": "PySpark (Spark 2.0)",
 "language": "python",
 "argv": [
  "/opt/intel/intelpython27/bin/python2",
  "-m",
  "ipykernel",
  "-f",
  "{connection_file}"
 ],
 "env": {
  "SPARK_HOME": "/home/ctsats/spark-2.0.0-bin-hadoop2.6",
  "PYTHONPATH": "/home/ctsats/spark-2.0.0-bin-hadoop2.6/python:/home/ctsats/spark-2.0.0-bin-hadoop2.6/python/lib/py4j-0.10.1-src.zip",
  "PYTHONSTARTUP": "/home/ctsats/spark-2.0.0-bin-hadoop2.6/python/pyspark/shell.py",
  "PYSPARK_PYTHON": "/opt/intel/intelpython27/bin/python2"
 }
}

正如您所看到的,在这两种情况下,第一个元素argv是相应语言的可执行文件 - 就我而言,GNU R 代表我的语言ir内核和 Intel Python 2.7pyspark2核心。更改此设置,使其指向您的 GNU R 可执行文件,应该可以解决您的问题。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

如何使用 Jupyter + SparkR 和自定义 R 安装 的相关文章

  • R 脚本自动化时的不同结果

    以下命令对 pdf 文件执行 Ghostscript 这pdf file变量包含该 pdf 的路径 bbox lt system paste C gs gs8 64 bin gswin32c exe sDEVICE bbox dNOPAUS
  • R中添加水印

    我在用magickR中的库 我想在一些图片上添加水印 I used image annotate功能如下 img lt image read C Users Maydin Desktop manzara png image annotate
  • 从 R 中的向量中选择所有可能的元组

    我正在尝试用 R 编写一个程序 当给定一个向量时 将返回所有可能的tuples http en wikipedia org wiki Tuples该向量中的元素 例如 元组 c a b c c a b c 出租车 c a c c b c c
  • kableExtra 中的 row_spec() 函数不会在 html 输出中创建水平线

    我想在 kableextra 表中的某一行下方添加一条水平线 row spec 函数的参数 hline after 应该在行下方添加水平线 row spec 文档 https www rdocumentation org packages
  • 删除ggplot2中的负图区域[重复]

    这个问题在这里已经有答案了 如何删除 ggplot2 中 x 轴和 y 轴下方的绘图区域 请参见下面的示例 我尝试了几个主题元素 panel border panel margin plot margin 但没有任何运气 p lt ggpl
  • R中的一元加/减是什么?

    来自 R 的详细信息部分Syntax http stat ethz ch R manual R patched library base html Syntax html帮助页面 定义了以下一元和二元运算符 他们被列出 在优先级组中 从最高
  • R foreach问题(某些进程返回NULL)

    我遇到了问题foreach我正在 R 中使用的程序的一部分 该程序用于运行不同参数的模拟 然后将结果返回到单个列表 然后用于生成报告 当并非所有分配的模拟运行都在报告上实际可见时 就会出现问题 从各方面来看 似乎只有分配的运行的一个子集实际
  • 使用 pracma::findpeaks 识别持续峰值

    我的语法有问题peakpat内的选项findpeaks内的函数pramcaR 包 v 2 1 1 我使用的是 R 3 4 3 x64 Windows 我希望该函数能够识别可能有两个重复值的峰值 并且我相信该选项peakpat这就是我能做到的
  • 时间戳半小时窗口内字段的平均值

    我的数据框有列名Timestamp es看起来像 Timestamp es 2015 04 01 09 07 42 31 2015 04 01 09 08 01 29 5 2015 04 01 09 15 03 18 5 2015 04 0
  • 将绘图调用拆分为多个块

    我正在编写一个图的解释 其中我基本上将在第一个块中创建图 然后描述该输出 并在第二个块中添加一个轴 然而 似乎每个块都会强制一个新的绘图环境 因此当我们尝试使用以下命令运行块时会出现错误axis独自的 观察 output html docu
  • R 中的快速 QR 分解

    我有大量矩阵 需要对其执行 QR 分解并存储生成的 Q 矩阵 进行归一化 以便 R 矩阵在其对角线上具有正数 除了使用之外还有其他方法吗qr 功能 这是工作示例 system time Parameters for the matrix t
  • twitterR 和 ROAuth R 软件包安装

    我在安装 CRAN 上的 twitteR 和 RAOuth 软件包时遇到一些问题 我尝试了几种不同的方法 在 Windows 下使用源代码 在 Ubuntu 下使用 RStudio 我尝试了以下命令 sudo apt get install
  • 从命令行运行 R 代码 (Windows)

    我在名为 analysis r 的文件中有一些 R 代码 我希望能够从命令行 CMD 运行该文件中的代码 而无需通过 R 终端 并且我还希望能够传递参数并在我的代码中使用这些参数 例如就像下面的伪代码 C gt execute r scri
  • API 请求和curl::curl_fetch_memory(url, handle = handle) 中的错误:SSL 证书问题:证书已过期

    几天前 我运行了代码几个月 没有任何问题 GET url myurl query 今天我遇到一个错误 Error in curl curl fetch memory url handle handle SSL certificate pro
  • 在 R 格子包中微调点图

    我正在尝试为不同的数据集和不同的算法绘制一堆 ROC 区域 我有三个变量 方案 指定所使用的算法 数据集 是正在测试算法的数据集 以及 Area under ROC 我正在 R 中使用lattice库 命令如下 点图 方案 Area und
  • 使用 R 选择第一个非 NA 值

    df lt data frame ID c 1 1 1 2 3 3 3 test c NA 5 5 6 4 NA 7 3 NA 10 9 我想创建一个名为 value 的变量 它是每个单独 ID 测试的第一个非 NA 值 对于只有NA的个体
  • 在 R 中使用 lapply 绘制多个数据帧

    我正在尝试使用 lapply 函数绘制多个数据帧 每个数据帧一个图 但是尽管有关此主题的所有帖子我都找不到答案 因为我不断收到错误 图的输出列表为空 我的数据结构如下 df1 lt mtcars gt group by cyl gt tal
  • 只读取选定的列

    谁能告诉我如何仅读取下面每年数据的前 6 个月 7 列 例如使用read table Year Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec 2009 41 27 25 31 31 39 2
  • 将数据框中重叠的范围合并到唯一的组中

    我有一个 n 行 3 的数据框 df lt data frame start c 178 400 983 1932 33653 end c 5025 5025 5535 6918 38197 group c 1 1 2 2 3 df sta
  • 如何仅删除单括号并保留配对的括号

    你好 我亲爱的老师 R 用户朋友们 我最近开始认真学习正则表达式 最近我遇到了一种情况 我们只想保留配对括号 并省略未配对的 这是我的样本数据 structure list t1 c Book Pg 1 Website Online Jou

随机推荐

  • 在大地图上实现A星(A*)路径算法,性能较低

    我正在使用这个 A 星 A Pathfinder java 在 Android 地图应用程序中计算和生成我的路线 https github com xSmallDeadGuyx SimpleAStar blob master Pathfin
  • scanf() 函数中的扫描集有什么区别?

    我已阅读有关这些的所有问题 但我还没有找到对之间差异的解释 n s and n in the scanf 功能 额外的s after n 这是一个常见的错误 它可能来自扫描集和 s转换说明符 其作用在一个scanf格式字符串是一个匹配s输入
  • 如何获取Python中函数的调用表达式?

    出于教育目的 我希望能够打印complete当前函数的调用表达式 不一定来自异常处理程序 经过一番研究 我最终得到了这段非常简单的代码 import inspect import linecache def print callexp ar
  • 没有名为 googlesamples.assistant.auth_helpers 的模块

    我在尝试安装时收到此错误Google Assistant 我正在使用Windows 10 Python 3 6 and SDK 0 3 3 有人可以推荐下一步吗 我尝试输入其他网站上推荐的字符串 该字符串以 scope https goog
  • 从 url 中删除 # 后无法通过更改 url 在 flutter web 中导航

    I was able to navigate to other pages by changing the url of my flutter web hosted on netlify manually deployed by typin
  • 通过 ref 传递 List [重复]

    这个问题在这里已经有答案了 可能的重复 通过 ref 传入对象 使用下面的代码 输出将是 Without With 1 Code static void Main string args var listWithoutRef new Lis
  • 多个文件的 Bash 输入

    我有数千个两组文件 一组以 name ext 结尾 另一个文件名以 name ext in 结尾 因此对于每个 name ext 都有一个 name ext in 现在我必须将其作为参数传递给脚本 例如customise pl name e
  • 如何确定Android设备的最小宽度

    我对与不同屏幕尺寸相关的 Android 布局概念很陌生 我希望为 8 英寸的选项卡制作不同的布局 并将其放置在 layout swxxxx 文件夹中 并在 layout 文件夹中为大于 8 英寸的选项卡提供另一个通用布局 这是我的 8 英
  • 进入电话会议时如何识别?

    无论如何 有没有办法识别何时通话从一对一转为多方 电话会议 是否有任何类型的广播或事件被调用 Thanks 不幸的是 目前还没有 这是由系统管理的 开发人员无法访问 你最接近的是电话管理器 但您只能真正访问有关手机的基本信息 我相信这主要是
  • Actor 方法启动/停止日志 |添加附加信息

    对于 azure actor 服务 Actor Method Start Stop 会记录在 诊断 窗口中 如下所示 如何在每次调用方法时添加一些额外的详细信息 例如 Correlation Id Timestamp 2016 09 14T
  • 用于检索 PDF 的 SAP BI Open Doc URL

    在我们使用的报告应用程序中 我们使用 BI 3 x API 来生成 Web 报告 在进行到 4 x 版本的迁移活动时 我们认为使用开放文档 URL 比通过 API 生成报告更好 我见过的许多示例都使用sIDType and iDocID参数
  • Pig 脚本:加入多个文件

    我正在读取一个大文件 超过十亿条记录 并将其与其他三个文件连接 我想知道是否可以使该过程更有效 以避免在大表上进行多次读取 小表可能不适合记忆 A join smalltable1 by f1 f2 RIGHT OUTER massive
  • 了解是否使用了 const 限定符

    C 中是否有任何方法可以查找变量是否具有 const 限定符 或者如果它存储在 rodata 部分中 例如 如果我有这个功能 void foo char myString 在这两个不同的函数调用中应采取不同的操作 char str abc
  • C++ CRTP 初始化

    我在运行以下程序时遇到了段错误 include
  • 在 C++ 中解析字符串中的键/值对

    我正在使用 C 11 没有 Boost 我有一个函数 它接受一个 std string 作为输入 其中包含一系列键值对 用分号分隔 并返回从输入构造的对象 所有密钥都是必需的 但可以按任意顺序排列 下面是一个输入字符串示例 顶部 0 底部
  • 关于 perl 到 python 互操作的建议?

    我们有相当大的 Perl 代码库 在可预见的未来 我们的代码库将保留在 Perl 中 不过 我们正在考虑添加基于 GUI 的仪表板实用程序 我们正在考虑用 Python 编写仪表板 使用 tkinter 或 wx 然而 问题是我们希望在 P
  • pip 在哪里使用虚拟环境安装包?

    情况 我创建了一个虚拟环境并使用显式路径来运行pip 无货源activate 是否在全局安装包dist packages或者将它们安装在虚拟环境中site packages Details As pip 在哪里安装它的软件包 解释说 pip
  • 在模型中使用助手:如何包含助手依赖项?

    我正在编写一个处理来自文本区域的用户输入的模型 遵循以下建议http blog caboo se articles 2008 8 25 sanitize your users html input 我在保存到数据库之前使用 before v
  • 如何获取Android Q中特定文件夹的路径

    我正在尝试显示保存在图库中特定文件夹中的所有图像安卓Q getExternalStoragePublicDirectory方法已弃用且不起作用 如何获取文件夹的路径安卓Q Override protected ArrayList
  • 如何使用 Jupyter + SparkR 和自定义 R 安装

    我正在使用 Dockerized 映像和 Jupyter Notebook 以及 SparkR 内核 当我创建 SparkR 笔记本时 它使用 Microsoft R 3 3 2 安装 而不是普通的 CRAN R 安装 3 2 3 我使用的