从 Databricks 中的 dbutils.fs.ls 输出创建数据帧

2024-02-13

所以，我是一个初学者，正在 Databricks 上学习 Spark 编程 (pyspark) -

我想做什么？

列出目录中的所有文件并将其保存到数据框中，以便我能够在此文件列表上应用过滤、排序等。为什么？因为我试图找到目录中最大的文件。

为什么下面不起作用？ 我缺少什么？

from pyspark.sql.types import StringType

sklist = dbutils.fs.ls(sourceFile)

df = spark.createDataFrame(sklist,StringType())

好吧，实际上，我明白了:)。只是想把问题留在这里，以防有人从中受益。

所以基本上，问题出在模式上。并非列表中的所有元素都是字符串类型。因此，我显式创建了一个架构并在 createDataFrame 函数中使用它。

工作代码 -

from pyspark.sql.types import StructType, StructField, IntegerType, StringType

ddlSchema = StructType([
StructField('path',StringType()),
StructField('name',StringType()),
StructField('size',IntegerType())
])

sklist = dbutils.fs.ls(sourceFile)
df = spark.createDataFrame(sklist,ddlSchema)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

PySpark

Databricks

apachecommonsdbutils

从 Databricks 中的 dbutils.fs.ls 输出创建数据帧的相关文章

如何使用固定的 pandas 数据框进行动态 matplotlib 绘图？

我有一个名为的数据框benchmark returns and strategy returns 两者具有相同的时间跨度我想找到一种方法以漂亮的动画风格绘制数据点以便它显示逐渐加载的所有点我知道有一个matplotlib animat
Pycharm Python 控制台不打印输出

我有一个从 Pycharm python 控制台调用的函数但没有显示输出 In 2 def problem1 6 for i in range 1 101 2 print i end In 3 problem1 6 In 4 另一方面像
如何在android上的python kivy中关闭应用程序后使服务继续工作

我希望我的服务在关闭应用程序后继续工作但我做不到我听说我应该使用startForeground 但如何在Python中做到这一点呢应用程序代码 from kivy app import App from kivy uix floatl
如何在 Sublime Text 2 的 OSX 终端中显示构建结果

我刚刚从 TextMate 切换到 Sublime Text 2 我非常喜欢它让我困扰的一件事是默认的构建结果显示在 ST2 的底部我的程序产生一些很长的结果显示它的理想方式如在 TM2 中是并排查看它们如何在 Mac 操作系统
打破嵌套循环[重复]

这个问题在这里已经有答案了有没有比抛出异常更简单的方法来打破嵌套循环在Perl https en wikipedia org wiki Perl 您可以为每个循环指定标签并且至少继续一个外循环 for x in range 10 fo
为 pandas 数据透视表中的每个值列定义 aggfunc

试图生成具有多个值列的数据透视表我知道我可以使用 aggfunc 按照我想要的方式聚合值但是如果我不想对两列求和或求平均值而是想要一列的总和同时求另一列的平均值该怎么办那么使用 pandas 可以做到这一点吗 df pd D
安装后 Anaconda 提示损坏

我刚刚安装张量流GPU创建单独的后环境按照以下指示here https github com antoniosehk keras tensorflow windows installation 但是安装后当我关闭提示窗口并打开新航站楼弹出
feedparser 在脚本运行期间失败，但无法在交互式 python 控制台中重现

当我运行 eclipse 或在 iPython 中运行脚本时它失败了 ascii codec can t decode byte 0xe2 in position 32 ordinal not in range 128 我不知道为什么但
Pandas Dataframe 中 bool 值的条件前向填充

问题如何转发 fill boolTruepandas 数据框中的值如果是当天的第一个条目 True 到一天结束时请参阅以下示例和所需的输出 Data import pandas as pd import numpy as np df
表达式中的 Python 'in' 关键字与 for 循环中的比较 [重复]

这个问题在这里已经有答案了我明白什么是in运算符在此代码中执行的操作 some list 1 2 3 4 5 print 2 in some list 我也明白i将采用此代码中列表的每个值 for i in 1 2 3 4 5 print
Python - 在窗口最小化或隐藏时使用 pywinauto 控制窗口

我正在尝试做的事情我正在尝试使用 pywinauto 在 python 中创建一个脚本以在后台自动安装 notepad 隐藏或最小化 notepad 只是一个示例因为我将编辑它以与其他软件一起使用 Problem 问题是我想在安装程序
通过数据框与函数进行交互

如果我有这样的日期框架氮 EG 00 04 NEG 04 08 NEG 08 12 NEG 12 16 NEG 16 20 NEG 20 24 datum von 2017 10 12 21 69 15 36 0 87 1 42 0 76
Nuitka 未使用 nuitka --recurse-all hello.py [错误] 编译 exe

我正在尝试通过 nuitka 创建一个简单的 exe 这样我就可以在我的笔记本电脑上运行它而无需安装 Python 我在 Windows 10 上并使用 Anaconda Python 3 我输入 nuitka recurse all h
在Python中重置生成器对象

我有一个由多个yield 返回的生成器对象准备调用该生成器是相当耗时的操作这就是为什么我想多次重复使用生成器 y FunctionWithYield for x in y print x here must be something t
对输入求 Keras 模型的导数返回全零

所以我有一个 Keras 模型我想将模型的梯度应用于其输入这就是我所做的 import tensorflow as tf from keras models import Sequential from keras layers imp
循环标记时出现“ValueError：无法识别的标记样式 -d”

我正在尝试编码pyplot允许不同标记样式的绘图这些图是循环生成的标记是从列表中选取的为了演示目的我还提供了一个颜色列表版本是Python 2 7 9 IPython 3 0 0 matplotlib 1 4 3 这是一个简单的代
使用基于正则表达式的部分匹配来选择 Pandas 数据帧的子数据帧

我有一个 Pandas 数据框它有两列一列进程参数列包含字符串另一列值列包含相应的浮点值我需要过滤出部分匹配列过程参数中的一组键的子数据帧并提取与这些键匹配的数据帧的两列 df pd DataFrame Proce
在 Python 类中动态定义实例字段

我是 Python 新手主要从事 Java 编程我目前正在思考Python中的类是如何实例化的我明白那个 init 就像Java中的构造函数然而有时 python 类没有 init 方法在这种情况下我假设有一个默认构造函数就像
Spark.read 在 Databricks 中给出 KrbException

我正在尝试从 databricks 笔记本连接到 SQL 数据库以下是我的代码 jdbcDF spark read format com microsoft sqlserver jdbc spark option url jdbc sql
PyAudio ErrNo 输入溢出 -9981

我遇到了与用户相同的错误 Python 使用 Pyaudio 以 16000Hz 录制音频时出错 https stackoverflow com questions 12994981 python error audio recording

随机推荐

使用切片功能限制结果自动完成jquery ui

我需要限制此自动完成 jquery ui 脚本中的结果最多 10 个我知道我必须使用切片函数但我无法将其正确放置在脚本中在此先感谢您的帮助 document ready function var myArr ajax type GE
如何在 Linux 上查找 C 中未初始化的变量？

我的 C 源代码有许多未初始化的变量该代码运行在 RHEL 6 4 操作系统上有没有办法找到所有未初始化的变量 Finding all从数学意义上来说其中任何一个都是不可能的至少没有误报但是有一些工具可以帮助找到其中一些打开编
多标签分类中的 Spacy TextCat 分数

在spacy的文本分类中火车文本猫 https github com explosion spaCy blob master examples training train textcat py例如指定了两个标签Positive and
如何在 Django Rest 框架中验证 API 请求（由匿名用户发起）？

API 请求将由匿名用户发送不存在登录注册功能我需要对 API 请求进行身份验证我尝试的一种原始方法是在每个请求中发送身份验证密钥这个身份验证密钥 I 作为常量保存在 Angular 前端中一定有更好更复杂的方法请帮忙 Dja
Scala 中函数对象的可变参数出错？

为什么这不起作用 val f args Int gt args sum error expected but identifier found val f args Int gt args sum 然而这工作得很好 def sum args
CSS 相对定位与背景图像 + 背景位置

我正在为图片库制作缩略图页面缩略图预览是作为 ul 有浮动 li 具有固定的正方形尺寸缩略图图像他们自己然而它们不一定是正方形或相同大小它们具有它们所代表的大图像的属性为了使它看起来漂亮我想在正方形中显示缩略图的中心 li li
Crystal Reports 和运行时数据绑定

我已经为此苦苦挣扎了四天了我有一个非常非常简单的水晶报告我用它只是为了概念证明该报告绑定到数据库我仅显示数据库中一个表中的一个字段没有子报告它是使用 Crystal Reports 2008 创建的我需要在我的 Net MVC
CSSRules 为空

我有一个非常简单的 HTML 页面我试图获取 poulet 的 CSSRules 但是当我访问 Documents styleSheets 0 cssRules 时我在 Chrome v5 0 375 55 中收到此错误未捕获的类型错
Django 使用 Slug 字段作为详细 URL

我正在尝试设置我的网站以便我的工作详细信息的 url 将使用 slug 字段而不是 pk 它告诉我它无法使用给定的 slug 这是一个 int 147 找到我的工作 Update 查看 DetailView 描述后https ccbv c
grunt-contrib-cssmin - 如何从缩小的 css 中删除注释

我使用 cssmin 来缩小 css 文件我的配置是这样的 module exports function grunt grunt config set cssmin site src tmp public concat site css
Shell/Bash - 如何将数组保存到文件并加载另一个文件数组？

如何将数组保存到文件并加载另一个文件数组 file1 sh ARR aaa bbb ccc save to file2 I do not know how and file3 sh load from file2 I do not know
如何使用 SwiftUI 在导航栏上添加按钮

我有两个结构ContentView swift struct ContentView View var body some View NavigationView ZStack Color red 0 09 green 0 63 blue
Keras fit_generator 产生异常：生成器的输出应该是元组（x，y，sample_weight）或（x，y）。发现：[[[[ 0.86666673

我正在尝试为非 MNIST 非 Imagenet 数据构建一个自动编码器使用https blog keras io building autoencoders in keras html https blog keras io build
JS 对象转 JSON 字符串？ [复制]

这个问题在这里已经有答案了如何在 JavaScript 函数中将 JavaScript 对象转换为 JSON 字符串我需要将 JSON 字符串传递到 JSP 页面 Crockford 的库中有两个示例方法由 Anonymous 提出
scala 方法调用后的下划线是什么意思？

The 斯卡拉文档 https docs scala lang org tour multiple parameter lists html有一个代码示例其中包含以下行 val numberFunc numbers foldLeft Li
回合制匹配在 iOS 10 中不工作

我的游戏在 iOS 10 之前运行良好现在每个使用 iOS 10 的人都无法邀请他们想要的人并与他们一起玩当用户说他们想玩多人游戏时我创建一个GKMatchRequest像这样 GKMatchRequest request GKMa
当前上下文中不存在名称“X509Certificate2UI”

有人在 Asp Net MVC4 应用程序中使用 X509Certificate2UI 类时遇到问题吗 using System Security Cryptography X509Certificates private static X
将输入中的数字屏蔽为特殊字符 (*)

我试图将 SSN 字段中的所有数字屏蔽为同时让用户仅输入数值并用破折号格式化 SSN 这是一个小提琴链接 https jsfiddle net 7f8p83am https jsfiddle net 7f8p83am ssn keyup
自动聚焦下一个文本视图

我有一个TextView with android maxLength set to 3另一个与android maxLength set to 7 我希望焦点自动移至第二个TextView一旦3第一个的字符TextView已满如何在不继
从 Databricks 中的 dbutils.fs.ls 输出创建数据帧

所以我是一个初学者正在 Databricks 上学习 Spark 编程 pyspark 我想做什么列出目录中的所有文件并将其保存到数据框中以便我能够在此文件列表上应用过滤排序等为什么因为我试图找到目录中最大的文件为什么下面不

从 Databricks 中的 dbutils.fs.ls 输出创建数据帧

从 Databricks 中的 dbutils.fs.ls 输出创建数据帧 的相关文章

随机推荐

热门标签

从 Databricks 中的 dbutils.fs.ls 输出创建数据帧的相关文章