如何使用spark sql获取多个表

2023-12-26

我正在使用 pyspark 从 mysql 获取数据，该数据仅适用于一张表。我想从 mysql 数据库获取所有表。不想一次又一次的调用jdbc连接。请参阅下面的代码

是否可以简化我的代码？先感谢您

url = "jdbc:mysql://localhost:3306/dbname"
table_df=sqlContext.read.format("jdbc").option("url",url).option("dbtable","table_name").option("user","root").option("password", "root").load()
sqlContext.registerDataFrameAsTable(table_df, "table1")

table_df_1=sqlContext.read.format("jdbc").option("url",url).option("dbtable","table_name_1").option("user","root").option("password", "root").load()
sqlContext.registerDataFrameAsTable(table_df_1, "table2")

您需要以某种方式获取 mysql 中的表列表。您可以找到一些 sql 命令来执行此操作，或者手动创建一个包含所有内容的文件。

然后，假设您可以在 python 中创建表名列表tablename_list，你可以像这样简单地循环它：

url = "jdbc:mysql://localhost:3306/dbname"
reader = (
    sqlContext.read.format("jdbc")
    .option("url", url)
    .option("user", "root")
    .option("password", "root")
)
for tablename in tablename_list:
    reader.option("dbtable", tablename).load().createTempView(tablename)

这将创建一个具有相同表名的临时视图。如果您想要另一个名称，您可以更改首字母tablename_list与元组列表(tablename_in_mysql, tablename_in_spark).

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

apachesparksql

如何使用spark sql获取多个表的相关文章

Django REST序列化器：创建对象而不保存

我已经开始使用 Django REST 框架我想做的是使用一些 JSON 发布请求从中创建一个 Django 模型对象然后使用该对象而不保存它我的 Django 模型称为 SearchRequest 我所拥有的是 api view
如何在python中读取多个文件中的文本

我的文件夹中有许多文本文件大约有 3000 个文件每个文件中第 193 行是唯一包含重要信息的行我如何使用 python 将所有这些文件读入 1 个文本文件 os 模块中有一个名为 list dir 的函数该函数返回给定目录中所有文
Python、Tkinter、更改标签颜色

有没有一种简单的方法来更改按钮中文本的颜色 I use button text input text here 更改按下后按钮文本的内容是否存在类似的颜色变化 button color red Use the foreground设置按钮
如何使用固定的 pandas 数据框进行动态 matplotlib 绘图？

我有一个名为的数据框benchmark returns and strategy returns 两者具有相同的时间跨度我想找到一种方法以漂亮的动画风格绘制数据点以便它显示逐渐加载的所有点我知道有一个matplotlib animat
如何打印没有类型的defaultdict变量？

在下面的代码中 from collections import defaultdict confusion proba dict defaultdict float for i in xrange 10 confusion proba di
pandas 替换多个值

以下是示例数据框 gt gt gt df pd DataFrame a 1 1 1 2 2 b 11 22 33 44 55 gt gt gt df a b 0 1 11 1 1 22 2 1 33 3 2 44 4 3 55 现在我想根据
Spark的distinct()函数是否仅对每个分区中的不同元组进行洗牌

据我了解 distinct 哈希分区 RDD 来识别唯一键但它是否针对仅移动每个分区的不同元组进行了优化想象一个具有以下分区的 RDD 1 2 2 1 4 2 2 1 3 3 5 4 5 5 5 在此 RDD 上的不同键上所有重复键
从 scikit-learn 导入 make_blobs [重复]

这个问题在这里已经有答案了我收到下一个警告 D Programming Python ML venv lib site packages sklearn utils deprecation py 77 DeprecationWarning
如何使用装饰器禁用某些功能的中间件？

我想模仿的行为csrf exempt see here https docs djangoproject com en 1 11 ref csrf django views decorators csrf csrf exempt and h
从列表中的数据框列中搜索部分字符串匹配 - Pandas - Python

我有一个清单 things A1 B2 C3 我有一个 pandas 数据框其中有一列包含用分号分隔的值某些行将包含与上面列表中的一项的匹配它不会是完美的匹配因为它在其中包含字符串的其他部分该列例如该列中的一行可能有哇这里
NameError：名称“urllib”未定义”

CODE import networkx as net from urllib request import urlopen def read lj friends g name fetch the friend list from Liv
Geopandas 设置几何图形：MultiPolygon“等于 len 键和值”的 ValueError

我有 2 个带有几何列的地理数据框我将一些几何图形从 1 个复制到另一个这对于多边形效果很好但对于任何有效多多边形都会返回 ValueError 请指教如何解决这个问题我不知道是否如何为什么应该更改 MultiPolygon
Python：尝试检查有效的电话号码

我正在尝试编写一个接受以下格式的电话号码的程序XXX XXX XXXX并将条目中的任何字母翻译为其相应的数字现在我有了这个如果启动不正确它将允许您重新输入正确的数字然后它会翻译输入的原始数字我该如何解决 def main phon
如何在 Django 中使用并发进程记录到单个文件而不使用独占锁

给定一个在多个服务器上同时执行的 Django 应用程序该应用程序如何记录到单个共享日志文件在网络共享中而不保持该文件以独占模式永久打开当您想要利用日志流时这种情况适用于 Windows Azure 网站上托管的 Django 应
Python：计算字典的重复值

我有一本字典如下 dictA unit1 test1 alpha unit1 test2 beta unit2 test1 alpha unit2 test2 gamma unit3 test1 delta unit3 test2 gamm
glpk.LPX 向后兼容性？

较新版本的glpk没有LPXapi 旧包需要它我如何使用旧包例如COBRA http opencobra sourceforge net openCOBRA Welcome html 与较新版本的glpk 注意COBRA适用于 MATL
对输入求 Keras 模型的导数返回全零

所以我有一个 Keras 模型我想将模型的梯度应用于其输入这就是我所做的 import tensorflow as tf from keras models import Sequential from keras layers imp
循环标记时出现“ValueError：无法识别的标记样式 -d”

我正在尝试编码pyplot允许不同标记样式的绘图这些图是循环生成的标记是从列表中选取的为了演示目的我还提供了一个颜色列表版本是Python 2 7 9 IPython 3 0 0 matplotlib 1 4 3 这是一个简单的代
在 Python 类中动态定义实例字段

我是 Python 新手主要从事 Java 编程我目前正在思考Python中的类是如何实例化的我明白那个 init 就像Java中的构造函数然而有时 python 类没有 init 方法在这种情况下我假设有一个默认构造函数就像
Python：元类属性有时会覆盖类属性？

下面代码的结果让我感到困惑 class MyClass type property def a self return 1 class MyObject object metaclass MyClass a 2 print MyObject

随机推荐

\r 和 \n 有什么区别？

How are r and n不同的我认为这与 Unix Windows 和 Mac 有关但我不确定它们究竟有何不同以及在正则表达式中搜索匹配哪些内容他们是不同的角色 r是回车符并且 n是换行在旧打印机上 r将打印头送回行
将 anticaptcha 与 selenium 集成

我正在使用 Selenium Python 尝试填写表格然后填写验证码我找到了 python anticaptcha 并购买了 10 美元的积分一切正常验证码出现了但什么也没发生我花了几个小时试图寻找答案查阅他们的 api 和
Android TabLayout 在启动时选择第一个选项卡

我正在使用 Android 设计库中的 TabLayout 我有多个选项卡每个选项卡在被选择时都有一个操作所以我有一个属性 startSelection 它执行 tabLayout getTabAt startSelection sel
如何在处理注释时写入 Gradle 日志记录？

我有一个javax annotation processing Processor我用来生成源文件这一切都工作正常但我想在构建过程中将一些调试消息写入控制台我可以使用注释Messeger类但这不允许我利用 Gradle 日志记录我
r 闪亮滑块输入轮

我的 R 闪亮滑块输入有问题如您所见圆形功能不起作用在这幅图片中 https i stack imgur com v4nd6 png 我做错什么了吗 sliderInput Er Choose expected return in p
在哪里检查 android 片段中的方向变化

在我的应用程序中我有一个FragmentActivity与多个Fragment除了一个特定的情况外全部处于纵向模式Fragment 我在之间移动Fragment通过页脚View是在FragmentActivity 我有不同的布局实际上
如何测试我的 Django 电子邮件视图是否可以捕获 BadHeaderError？

我有一个带有电子邮件表单的 Django 视图它允许用户输入主题和消息并将其作为电子邮件发送给站点管理员我想编写一个单元测试来确保该视图可以捕获错误标头错误 https docs djangoproject com en 1 4 to
SQLiteAsyncConnection UpdateWithChildren 不可用

我正在尝试使用 SQLite net 在我的 PCL 内实现 OneToMany 关系我有异步扩展包 SQLiteNetExtensions Async 并且我的代码基于中找到的示例https bitbucket org twincode
在 Google Analytics API 中使用和查询自定义维度

我正在尝试查询我的 Analytics 通用以接收按自定义维度排序的指标列表 7月 Google Analytics API 博客 http analytics blogspot com 2013 07 40 new data point
循环图的数据结构和算法

我需要定义Data Structure and Algorithm for Circular Data Graph对于网络客户端在服务器上数据将以 2 列 CSV 格式提供例如发送方接收方最终输出将呈现在JSON格式并发送到网络请
以编程方式设置约束

我正在尝试如何使用 UIScrollView 经过一番折腾我终于掌握了窍门但现在我似乎遇到了另一个障碍在这个简单的应用程序中我有一个滚动视图为了使其工作我必须将视图的底部空间设置为滚动视图约束为 0 如上所述here https
Kotlin 有恒等函数吗？

Scala 有一个泛型identityPredef 中的函数 def identity A x A A Kotlin 在标准库中有类似的工具吗当然我可以简单地使用 it 相反但我发现identity更容易阅读并且实例化所有这些 lam
根据用户角色和产品类别应用不同的税（Woocommerce）

如果用户具有特定角色但仅限于某些产品类别我需要应用不同的税示例如果具有 Vip 角色的客户 A 购买 Bravo 或 Charlie 类别的商品则适用的税费将为 4 而不是 22 这是我写的代码另一部分是在谷歌上找到的但我不明
猫鼬更新 MongoDB 中的字段不起作用

我有这个代码 var UserSchema new Schema Username type String index true Password String Email String Points type Number default
重置 MySqli 指针？

我在重置指针方面遇到了一些困难我想这样做是因为我将在同一脚本中使用同一查询两次据我所知我可以在循环获取数组后重置指针来做到这一点如果有更好的方法来做到这一点我很想听听无论如何这就是我得到的 getEvent connectio
设置默认样式键的方法之间的差异

我正在创建一个自定义控件源自Control 并想要为控件定义默认主题以前我创建的所有自定义控件我都使用过 static IntegerUpDown DefaultStyleKeyProperty OverrideMetadata ty
UIScrollView setContentSize 因未捕获的 NSRangeException 崩溃

删除 UIScrollView 的某些内容后调用 setContentSize 会使应用程序崩溃 int toolbarHeight self navigationController toolbar frame size height
Android Fragments API 无法正确显示背景 9patch 图像

我正在将现有的 Android 应用程序以及片段 API 和兼容性库移植到 honeycomb 我使用相同的布局但将其加载到片段中背景是 9 块图像但现在仅覆盖屏幕的左上四分之一背景的其余部分是白色的如果我将背景更改为十六进制颜色
如何更新 phpunit？

我已经尝试过了一切包括https stackoverflow com a 8740349 251311 https stackoverflow com a 8740349 251311以及所有可能的通道升级和清除缓存命令但仍然 sudo
如何使用spark sql获取多个表

我正在使用 pyspark 从 mysql 获取数据该数据仅适用于一张表我想从 mysql 数据库获取所有表不想一次又一次的调用jdbc连接请参阅下面的代码是否可以简化我的代码先感谢您 url jdbc mysql localh

如何使用spark sql获取多个表

如何使用spark sql获取多个表 的相关文章

随机推荐

热门标签

如何使用spark sql获取多个表的相关文章