如何使用 Jupyter + SparkR 和自定义 R 安装

2023-12-02

我正在使用 Dockerized 映像和 Jupyter Notebook 以及 SparkR 内核。当我创建 SparkR 笔记本时，它使用 Microsoft R (3.3.2) 安装，而不是普通的 CRAN R 安装 (3.2.3)。

我使用的 Docker 映像安装了一些自定义 R 库和 Python 包，但我没有显式安装 Microsoft R。无论我是否可以删除 Microsoft R 或将其并排放置，如何让我的 SparkR 内核使用 R 的自定义安装?

抛开与 Docker 相关的问题不谈，Jupyter 内核的设置是在名为kernel.json，驻留在特定目录中（每个内核一个），可以使用以下命令查看jupyter kernelspec list;例如，这是我的（Linux）机器上的情况：

$ jupyter kernelspec list
Available kernels:
  python2       /usr/lib/python2.7/site-packages/ipykernel/resources
  caffe         /usr/local/share/jupyter/kernels/caffe
  ir            /usr/local/share/jupyter/kernels/ir
  pyspark       /usr/local/share/jupyter/kernels/pyspark
  pyspark2      /usr/local/share/jupyter/kernels/pyspark2
  tensorflow    /usr/local/share/jupyter/kernels/tensorflow

再次作为示例，以下是kernel.json对于我的 R 内核（ir)

{
  "argv": ["/usr/lib64/R/bin/R", "--slave", "-e", "IRkernel::main()", "--args", "{connection_file}"],
  "display_name": "R 3.3.2",
  "language": "R"
}

这是我的相应文件pyspark2 kernel:

{
 "display_name": "PySpark (Spark 2.0)",
 "language": "python",
 "argv": [
  "/opt/intel/intelpython27/bin/python2",
  "-m",
  "ipykernel",
  "-f",
  "{connection_file}"
 ],
 "env": {
  "SPARK_HOME": "/home/ctsats/spark-2.0.0-bin-hadoop2.6",
  "PYTHONPATH": "/home/ctsats/spark-2.0.0-bin-hadoop2.6/python:/home/ctsats/spark-2.0.0-bin-hadoop2.6/python/lib/py4j-0.10.1-src.zip",
  "PYTHONSTARTUP": "/home/ctsats/spark-2.0.0-bin-hadoop2.6/python/pyspark/shell.py",
  "PYSPARK_PYTHON": "/opt/intel/intelpython27/bin/python2"
 }
}

正如您所看到的，在这两种情况下，第一个元素argv是相应语言的可执行文件 - 就我而言，GNU R 代表我的语言ir内核和 Intel Python 2.7pyspark2核心。更改此设置，使其指向您的 GNU R 可执行文件，应该可以解决您的问题。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

如何使用 Jupyter + SparkR 和自定义 R 安装的相关文章

R 脚本自动化时的不同结果

以下命令对 pdf 文件执行 Ghostscript 这pdf file变量包含该 pdf 的路径 bbox lt system paste C gs gs8 64 bin gswin32c exe sDEVICE bbox dNOPAUS
R中添加水印

我在用magickR中的库我想在一些图片上添加水印 I used image annotate功能如下 img lt image read C Users Maydin Desktop manzara png image annotate
从 R 中的向量中选择所有可能的元组

我正在尝试用 R 编写一个程序当给定一个向量时将返回所有可能的tuples http en wikipedia org wiki Tuples该向量中的元素例如元组 c a b c c a b c 出租车 c a c c b c c
kableExtra 中的 row_spec() 函数不会在 html 输出中创建水平线

我想在 kableextra 表中的某一行下方添加一条水平线 row spec 函数的参数 hline after 应该在行下方添加水平线 row spec 文档 https www rdocumentation org packages
删除ggplot2中的负图区域[重复]

这个问题在这里已经有答案了如何删除 ggplot2 中 x 轴和 y 轴下方的绘图区域请参见下面的示例我尝试了几个主题元素 panel border panel margin plot margin 但没有任何运气 p lt ggpl
R中的一元加/减是什么？

来自 R 的详细信息部分Syntax http stat ethz ch R manual R patched library base html Syntax html帮助页面定义了以下一元和二元运算符他们被列出在优先级组中从最高
R foreach问题（某些进程返回NULL）

我遇到了问题foreach我正在 R 中使用的程序的一部分该程序用于运行不同参数的模拟然后将结果返回到单个列表然后用于生成报告当并非所有分配的模拟运行都在报告上实际可见时就会出现问题从各方面来看似乎只有分配的运行的一个子集实际
使用 pracma::findpeaks 识别持续峰值

我的语法有问题peakpat内的选项findpeaks内的函数pramcaR 包 v 2 1 1 我使用的是 R 3 4 3 x64 Windows 我希望该函数能够识别可能有两个重复值的峰值并且我相信该选项peakpat这就是我能做到的
时间戳半小时窗口内字段的平均值

我的数据框有列名Timestamp es看起来像 Timestamp es 2015 04 01 09 07 42 31 2015 04 01 09 08 01 29 5 2015 04 01 09 15 03 18 5 2015 04 0
将绘图调用拆分为多个块

我正在编写一个图的解释其中我基本上将在第一个块中创建图然后描述该输出并在第二个块中添加一个轴然而似乎每个块都会强制一个新的绘图环境因此当我们尝试使用以下命令运行块时会出现错误axis独自的观察 output html docu
R 中的快速 QR 分解

我有大量矩阵需要对其执行 QR 分解并存储生成的 Q 矩阵进行归一化以便 R 矩阵在其对角线上具有正数除了使用之外还有其他方法吗qr 功能这是工作示例 system time Parameters for the matrix t
twitterR 和 ROAuth R 软件包安装

我在安装 CRAN 上的 twitteR 和 RAOuth 软件包时遇到一些问题我尝试了几种不同的方法在 Windows 下使用源代码在 Ubuntu 下使用 RStudio 我尝试了以下命令 sudo apt get install
从命令行运行 R 代码 (Windows)

我在名为 analysis r 的文件中有一些 R 代码我希望能够从命令行 CMD 运行该文件中的代码而无需通过 R 终端并且我还希望能够传递参数并在我的代码中使用这些参数例如就像下面的伪代码 C gt execute r scri
API 请求和curl::curl_fetch_memory(url, handle = handle) 中的错误：SSL 证书问题：证书已过期

几天前我运行了代码几个月没有任何问题 GET url myurl query 今天我遇到一个错误 Error in curl curl fetch memory url handle handle SSL certificate pro
在 R 格子包中微调点图

我正在尝试为不同的数据集和不同的算法绘制一堆 ROC 区域我有三个变量方案指定所使用的算法数据集是正在测试算法的数据集以及 Area under ROC 我正在 R 中使用lattice库命令如下点图方案 Area und
使用 R 选择第一个非 NA 值

df lt data frame ID c 1 1 1 2 3 3 3 test c NA 5 5 6 4 NA 7 3 NA 10 9 我想创建一个名为 value 的变量它是每个单独 ID 测试的第一个非 NA 值对于只有NA的个体
在 R 中使用 lapply 绘制多个数据帧

我正在尝试使用 lapply 函数绘制多个数据帧每个数据帧一个图但是尽管有关此主题的所有帖子我都找不到答案因为我不断收到错误图的输出列表为空我的数据结构如下 df1 lt mtcars gt group by cyl gt tal
只读取选定的列

谁能告诉我如何仅读取下面每年数据的前 6 个月 7 列例如使用read table Year Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec 2009 41 27 25 31 31 39 2
将数据框中重叠的范围合并到唯一的组中

我有一个 n 行 3 的数据框 df lt data frame start c 178 400 983 1932 33653 end c 5025 5025 5535 6918 38197 group c 1 1 2 2 3 df sta
如何仅删除单括号并保留配对的括号

你好我亲爱的老师 R 用户朋友们我最近开始认真学习正则表达式最近我遇到了一种情况我们只想保留配对括号并省略未配对的这是我的样本数据 structure list t1 c Book Pg 1 Website Online Jou

随机推荐

在大地图上实现A星（A*）路径算法，性能较低

我正在使用这个 A 星 A Pathfinder java 在 Android 地图应用程序中计算和生成我的路线 https github com xSmallDeadGuyx SimpleAStar blob master Pathfin
scanf() 函数中的扫描集有什么区别？

我已阅读有关这些的所有问题但我还没有找到对之间差异的解释 n s and n in the scanf 功能额外的s after n 这是一个常见的错误它可能来自扫描集和 s转换说明符其作用在一个scanf格式字符串是一个匹配s输入
如何获取Python中函数的调用表达式？

出于教育目的我希望能够打印complete当前函数的调用表达式不一定来自异常处理程序经过一番研究我最终得到了这段非常简单的代码 import inspect import linecache def print callexp ar
没有名为 googlesamples.assistant.auth_helpers 的模块

我在尝试安装时收到此错误Google Assistant 我正在使用Windows 10 Python 3 6 and SDK 0 3 3 有人可以推荐下一步吗我尝试输入其他网站上推荐的字符串该字符串以 scope https goog
从 url 中删除 # 后无法通过更改 url 在 flutter web 中导航

I was able to navigate to other pages by changing the url of my flutter web hosted on netlify manually deployed by typin
通过 ref 传递 List [重复]

这个问题在这里已经有答案了可能的重复通过 ref 传入对象使用下面的代码输出将是 Without With 1 Code static void Main string args var listWithoutRef new Lis
多个文件的 Bash 输入

我有数千个两组文件一组以 name ext 结尾另一个文件名以 name ext in 结尾因此对于每个 name ext 都有一个 name ext in 现在我必须将其作为参数传递给脚本例如customise pl name e
如何确定Android设备的最小宽度

我对与不同屏幕尺寸相关的 Android 布局概念很陌生我希望为 8 英寸的选项卡制作不同的布局并将其放置在 layout swxxxx 文件夹中并在 layout 文件夹中为大于 8 英寸的选项卡提供另一个通用布局这是我的 8 英
进入电话会议时如何识别？

无论如何有没有办法识别何时通话从一对一转为多方电话会议是否有任何类型的广播或事件被调用 Thanks 不幸的是目前还没有这是由系统管理的开发人员无法访问你最接近的是电话管理器但您只能真正访问有关手机的基本信息我相信这主要是
Actor 方法启动/停止日志 |添加附加信息

对于 azure actor 服务 Actor Method Start Stop 会记录在诊断窗口中如下所示如何在每次调用方法时添加一些额外的详细信息例如 Correlation Id Timestamp 2016 09 14T
用于检索 PDF 的 SAP BI Open Doc URL

在我们使用的报告应用程序中我们使用 BI 3 x API 来生成 Web 报告在进行到 4 x 版本的迁移活动时我们认为使用开放文档 URL 比通过 API 生成报告更好我见过的许多示例都使用sIDType and iDocID参数
Pig 脚本：加入多个文件

我正在读取一个大文件超过十亿条记录并将其与其他三个文件连接我想知道是否可以使该过程更有效以避免在大表上进行多次读取小表可能不适合记忆 A join smalltable1 by f1 f2 RIGHT OUTER massive
了解是否使用了 const 限定符

C 中是否有任何方法可以查找变量是否具有 const 限定符或者如果它存储在 rodata 部分中例如如果我有这个功能 void foo char myString 在这两个不同的函数调用中应采取不同的操作 char str abc
C++ CRTP 初始化

我在运行以下程序时遇到了段错误 include
在 C++ 中解析字符串中的键/值对

我正在使用 C 11 没有 Boost 我有一个函数它接受一个 std string 作为输入其中包含一系列键值对用分号分隔并返回从输入构造的对象所有密钥都是必需的但可以按任意顺序排列下面是一个输入字符串示例顶部 0 底部
关于 perl 到 python 互操作的建议？

我们有相当大的 Perl 代码库在可预见的未来我们的代码库将保留在 Perl 中不过我们正在考虑添加基于 GUI 的仪表板实用程序我们正在考虑用 Python 编写仪表板使用 tkinter 或 wx 然而问题是我们希望在 P
pip 在哪里使用虚拟环境安装包？

情况我创建了一个虚拟环境并使用显式路径来运行pip 无货源activate 是否在全局安装包dist packages或者将它们安装在虚拟环境中site packages Details As pip 在哪里安装它的软件包解释说 pip
在模型中使用助手：如何包含助手依赖项？

我正在编写一个处理来自文本区域的用户输入的模型遵循以下建议http blog caboo se articles 2008 8 25 sanitize your users html input 我在保存到数据库之前使用 before v
如何获取Android Q中特定文件夹的路径

我正在尝试显示保存在图库中特定文件夹中的所有图像安卓Q getExternalStoragePublicDirectory方法已弃用且不起作用如何获取文件夹的路径安卓Q Override protected ArrayList
如何使用 Jupyter + SparkR 和自定义 R 安装

我正在使用 Dockerized 映像和 Jupyter Notebook 以及 SparkR 内核当我创建 SparkR 笔记本时它使用 Microsoft R 3 3 2 安装而不是普通的 CRAN R 安装 3 2 3 我使用的

如何使用 Jupyter + SparkR 和自定义 R 安装

如何使用 Jupyter + SparkR 和自定义 R 安装 的相关文章

随机推荐

热门标签

如何使用 Jupyter + SparkR 和自定义 R 安装的相关文章