Databricks

SparkR 和 Sparklyr 之间导入 parquet 文件所需的时间差异

我正在使用 databricks 导入镶木地板文件SparkR and sparklyr data1 SparkR read df dbfs data202007 source parquet header TRUE inferSchema

r parquet Databricks sparkr sparklyr

为什么我不需要在 Databricks 中创建 SparkSession？

为什么我不需要在 Databricks 中创建 SparkSession 集群设置的时候会自动创建一个SparkSession吗还是其他人帮我做的这仅在笔记本中完成以简化用户的工作并避免他们指定不同的参数其中许多参数不会产生任何效果

apachespark Databricks

在 Databricks / Spark 中的 SQL 中为变量分配动态值

我觉得我一定在这里遗漏了一些明显的东西但我似乎无法在 Spark SQL 中动态设置变量值假设我有两张桌子 tableSrc and tableBuilder 我正在创建tableDest 我一直在尝试变体 SET myVar FLOA

apachespark apachesparksql Databricks

Databricks：如何从 R Dataframe 切换到 Pandas Dataframe（同一笔记本中的 R 到 python）

我正在 Databricks 笔记本中编写 R 代码该代码在 R 中执行多项操作清理数据帧后我想使用 python 在 python 单元中调用它因此使用 python 代码继续对数据帧进行操作因此我想在 python 块内将我

python r pandas DataFrame Databricks

使用spark-sql从oracle加载数据时如何增加默认精度和小数位数

尝试从 oracle 表加载数据其中我有几列保存浮点值有时它最多保存 DecimalType 40 20 即点后 20 位数字目前当我使用加载其列时 var local ora df DataFrameReader ora df l

scala apachespark apachesparksql Databricks

使用已知模式保存空 DataFrame (Spark 2.2.1)

是否可以使用已知模式保存一个空的 DataFrame 以便将该模式写入文件即使它有 0 条记录 def example spark SparkSession path String schema StructType val datafr

apachespark parquet Databricks

将 Tuple2 的值部分（即映射）合并为按 Tuple2 的键分组的单个映射

我在 Scala 和 Spark 中这样做我有和Dataset of Tuple2 as Dataset String Map String String 下面是值的示例Dataset A 1 gt 100 2 gt 200 3 gt 1

scala DataFrame apachespark Dataset Databricks

如何在 Databricks 中使用 OPTIMIZE ZORDER BY

我有两个数据框来自三角洲湖表它们通过 id 列进行左连接 sd1 sd2 sql select a columnA b columnB from sd1 a left outer join sd2 b on a id b id 问题是我

PySpark Databricks azuredatabricks deltalake databrickssql

如何从 Databricks Delta 表中删除列？

我最近开始发现 Databricks 并遇到了需要删除增量表的特定列的情况当我使用 PostgreSQL 时它就像 ALTER TABLE main metrics table DROP COLUMN metric 1 我正在浏览 Da

sql apachespark apachesparksql Databricks deltalake

将 Matplotlib 输出保存到 Databricks 上的 Blob 存储

我正在尝试使用此处提供的方法将 matplotlib 图形写入 Azure blob 存储将 Matplotlib 输出保存到 Databricks 上的 DBFS https stackoverflow com questions 57

matplotlib Databricks azuredatabricks

使用 dbutils 在 Databricks 中上传后从目录中删除文件

StackOverflow 的一位非常聪明的人帮助我将文件从 Databricks 复制到目录中复制文件 https stackoverflow com questions 54007074 how to truncate and or

python Databricks azuredatabricks

如何从 Databricks Notebook 中调用 Cluster API 并启动集群？

目前我们正在使用一堆笔记本来处理 azure databricks 中的数据主要使用 python pyspark 我们想要实现的是确保我们的集群在开始数据处理之前启动预热因此我们正在探索从 databricks 笔记本内访问 C

apachespark PySpark Databricks azuredatabricks

在 Databricks 中的 pyspark 数据帧上下载 punkt 时出现 NLTK 查找错误

我试图通过对 Databricks 中的 pyspark 数据框应用余弦相似度来查找文本列标题标题的相似性我的函数称为 cosine sim udf 为了能够使用它我必须进行第一次 udf 转换将函数应用于 df 后出现查找错误

machinelearning PySpark NLTK Databricks

从 Scala/Spark 写入 SQL Server 日期时间数据类型

我正在尝试使用类似的方法从 databricks 笔记本批量插入 SQL Server 表批量复制到 Azure SQL 数据库或 SQL Server https docs databricks com spark latest dat

sqlserver scala apachespark Databricks

sql Sparklyr Sparkr Databricks 上的数据帧转换

我在使用以下代码创建的数据块上有 sql 表 sql CREATE TABLE data USING CSV OPTIONS header true inferSchema true LOCATION url data csv 以下代码分别

r sparkr sparklyr Databricks

delta Lake - 在 pyspark 中插入 sql 失败，并显示 java.lang.NoSuchMethodError: org.apache.spark.sql.catalyst.expressions.Alias

Dataproc 集群是使用映像创建的2 0 x带有 Delta io 包io delta delta core 2 12 0 7 0 Spark版本是3 1 1 Spark shell 启动于 pyspark conf spark sql

apachespark PySpark Databricks googleclouddataproc deltalake

在 Databricks 上的 mlflow.pyfunc 模型中使用 code_path

我们在 AWS 基础设施上使用 Databricks 在mlflow 我们将项目内导入写为from src module location import objects 按照网上的例子我期望当我使用时mlflow pyfunc log m

Databricks mlflow awsdatabricks

Databricks - 不为空，但它不是 Delta 表

我在 Databricks 上运行查询 DROP TABLE IF EXISTS dublicates hotels CREATE TABLE IF NOT EXISTS dublicates hotels 我试图理解为什么我收到以下错误

apachesparksql Databricks deltalake

无法使用 PySpark 和 Databricks Connect 连接到 Azure Data Lake Gen2

最近 Databricks 推出Databricks Connect that 允许您使用 Spark 本机 API 编写作业并让它们在 Azure Databricks 群集上远程执行而不是在本地 Spark 会话中执行除非我尝试访

apachespark PySpark Databricks azuredatabricks

具有更好性能的 pyspark 枢轴替代品

以下是我的输入数据集 df spark createDataFrame 0 CattyCat B2K B 0 CattyCat B3L I 0 CattyCat B3U I 0 CattyCat D3J C 0 CattyCat J1N H

apachespark PySpark Pivot Databricks crosstab