Sqoop - 数据分割

2024-02-22

Sqoop 能够使用以下方式从多个表导入数据--query子句，但不清楚是否能够导入以下查询。

按部门号从员工组中选择部门号、平均工资

另一个问题是

sqoop import --connect jdbc:mysql://myserver:1202/ --username=u1 --password=p1 --query '从 emp 中选择 *，其中 empid

$CONDITIONS 和 split-by 用于执行并行处理，或者我们可以说有效地导入数据。前者根据条件分割行，后者在主键上使用最小和最大逻辑。这两个有什么区别($CONDITIONS, split-by)。如果我们在同一个 sqoop 语句中使用这两个子句，哪个子句将获得优先级？

谢谢....

你们的理解有些差距。

首先，并行度由-m <n> or --num-mappers <n>。默认值为--num-mappers is 4.

Second, --split-by <column-name>，将根据列名称拆分您的任务。

Third, $CONDITIONS，sqoop内部使用它来实现这个分割任务。

Example，您发起了一个查询：

sqoop import --connect jdbc:mysql://myserver:1202/ --username u1 --password p1 --query 'select * from emp where $CONDITIONS' --split-by empId --target-dir /temp/emp -m 4

比如说，我的 empId 从 1 到 100 均匀分布。

现在，sqoop 将采取--split-by列并找到它的max and min使用查询的值：

SELECT MIN(empId), MAX(empId) FROM (Select * From emp WHERE (1 = 1) ) t1

看到替换了$CONDITIONS with (1 = 1).

在我们的例子中，最小值、最大值分别为 1 和 100。

由于映射器的数量为 4，sqoop 会将我的查询分为 4 部分。

创建下限“empId >= 1”和上限“empId

创建下限“empId >= 25”和上限“empId

创建下限“empId >= 50”和上限“empId

创建下限“empId >= 75”和上限“empId

Now $CONDITIONS将再次出现在画面中。它被上面的范围查询取代。

第一个映射器将像这样触发查询：

Select * From emp WHERE empId >= 25' AND 'empId < 50

其他 3 个映射器依此类推。

所有映射器的结果被聚合并写入最终的 HDFS 目录。

关于您的查询：

select deptid, avg(salary) from emp group by deptid

你将指定

--query 'select deptid, avg(salary) from emp group by deptid where $CONDITIONS'

它将首先转换为

select deptid, avg(salary) from emp group by deptid where (1 = 0)

获取列元数据。

我相信这个查询不会在 RDBMS 中运行。尝试上面的查询（having Where (1 = 0)）直接在Mysql中。

因此，您将无法使用此查询来使用 Sqoop 获取数据。

Sqoop 用于更简单的 SQL 查询。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Hadoop

SQOOP

Sqoop - 数据分割的相关文章

我可以在没有 Hadoop 的情况下使用 Spark 作为开发环境吗？

我对大数据和相关领域的概念非常陌生如果我犯了一些错误或拼写错误我很抱歉我想了解阿帕奇火花 http spark apache org 并使用它仅在我的电脑中在开发测试环境中由于Hadoop包含HDFS Hadoop分布式文件系统
InvalidRequestException（为什么：empid 如果包含 Equal，则不能被多个关系限制）

这是关于我从 Apache Spark 查询 Cassandra 时遇到的问题 Spark 的正常查询工作正常没有任何问题但是当我使用关键条件进行查询时出现以下错误最初我尝试查询复合键列族它也给出了与下面相同的问题由以下原因引
2n + 1 法定人数是什么意思？

我在描述 HBase 的 Zookeeper 配置时遇到过这个问题但我对这个术语并不熟悉 N 与我的 HBase 集群中的节点数量有关系吗或者我应该在 Zookeeper 集群中使用的节点数量 2f 1是指你所需要的可靠性可用性水平
Hadoop 推测任务执行

在Google的MapReduce论文中他们有一个备份任务我认为这与Hadoop中的推测任务是一样的推测任务是如何实现的当我启动一项推测任务时该任务是从一开始就作为较旧且缓慢的任务开始还是从较旧的任务到达的位置开始如果是这样
pyspark.sql.utils.AnalysisException：u'Path不存在

我正在使用标准 hdfs 与 amazon emr 运行 Spark 作业而不是 S3 来存储我的文件我在 hdfs user hive warehouse 有一个配置单元表但当我的 Spark 作业运行时找不到它我配置了 Spar
使用字符串数组在 Hive 表上加载 CSV 文件

我正在尝试将 CSV 文件插入 Hive 其中一个字段是 string 数组这是 CSV 文件 48 Snacks that Power Up Weight Loss Aidan B Prince Health Fitness Trave
如何按行扩展数组值！！使用 Hive SQL

我有一个有 4 列的表其中一列项目类型是 ARRAY 其他是字符串 ID items name loc id1 item1 item2 item3 item4 item5 Mike CT id2 item3 item7 item4 i
在 Hadoop MapReduce 中为二进制文件创建自定义 InputFormat 和 RecordReader

我正在编写一个 M R 作业该作业处理以二进制格式编写的大型时间序列数据文件如下所示此处换行以提高可读性显然实际数据是连续的 TIMESTAMP 1 TIMESTAMP 1 TIMESTAMP 2 TIMESTAMP 2 TIME
Hive：在查询中将 array 转换为 array

我有两张桌子 create table a 1 array
无法在 Windows 10 中启动 Spark Master

我是 Spark 新手我正在尝试手动启动 master 在 Windows 10 中使用 MINGW64 当我这样做时 Downloads spark 1 5 1 bin hadoop2 4 spark 1 5 1 bin hadoop2
将 Apache Zeppelin 连接到 Hive

我尝试将我的 apache zeppelin 与我的 hive 元存储连接起来我使用 zeppelin 0 7 3 所以没有 hive 解释器只有 jdbc 我已将 hive site xml 复制到 zeppelin conf 文件夹
为什么我们需要将外部表移动到托管 Hive 表？

我是 Hadoop 新手正在学习 Hive 在 Hadoop 权威指南第 3 版中第 12 页第428章最后一段我不明白下面关于 HIVE 中外部表的段落一种常见的模式是使用外部表访问存储在 HDFS 中的初始数据集由另一个进
Hive NVL 不适用于列的日期类型 - NullpointerException

我正在使用 HDFS 上的 MapR Hive 发行版并面临以下问题如果表的列类型是日期类型则NVL https cwiki apache org confluence display Hive LanguageManual UDF
全部配对图表上的所有路径

这可能是一个没有最佳解决方案的问题假设我有一个有向图不知道它是否有循环循环检测将是这个问题的方面之一给定一组顶点可能是数百万个顶点我需要计算给定图的所有唯一对之间的所有不同路径没有重复顶点的路径我该如何应对这种情况让我们看
Impala：如何查询具有不同模式的多个镶木地板文件

在 Spark 2 1 中我经常使用类似的东西 df spark read parquet path to my files parquet 即使具有不同的模式也可以加载镶木地板文件的文件夹然后我使用 SparkSQL 对数据帧执行一些
Hive 聚集在多个列上

据我所知当配置单元表聚集在一列上时它会执行该分桶列的哈希函数然后将该行数据放入其中一个桶中每个桶都有一个文件即如果有 32 个桶那么 hdfs 中就有 32 个文件将 clustered by 放在多个列上意味着什么例如假
将数据从 .txt 文件加载到 Hive 中以 ORC 形式存储的表

我有一个数据文件位于 txt格式我正在使用该文件将数据加载到 Hive 表中当我将文件加载到类似表中时 CREATE TABLE test details txt visit id INT store id SMALLINT STORE
Protobuf RPC 在 Hadoop 2.2.0 单节点服务器上不可用？

我正在尝试在按照本教程安装的本地单节点集群上运行 hadoop 2 2 0 mapreduce 作业 http codesfusion blogspot co at 2013 10 setup hadoop 2x 220 on ubuntu
Hadoop - 直接从 Mapper 写入 HBase

我有一个 hadoop 作业其输出应写入 HBase 我并不真正需要减速器我想要插入的行类型是在映射器中确定的如何使用 TableOutputFormat 来实现此目的从所有示例中我看到的假设是 reducer 是创建 Put 的
Hadoop 超立方体

嘿我正在启动一个基于 hadoop 的超立方体具有灵活的维度数有人知道这方面现有的方法吗我刚刚发现PigOLAP草图 http wiki apache org pig PigOLAPSketch 但没有代码可以使用它另一种方法是Z

随机推荐

在git中删除远程分支：一劳永逸地理解它

我今天在这里发帖的原因是因为我在命令行上看到的行为与我实际在网上阅读的行为不同所以这让我很困惑这里有问题的两个命令是 git branch r d origin topic1 and git push origin topic1 到目前
引导程序。如何只为手机屏幕添加下边距？

我有这个 HTML 代码 div class row div class col xs 12 div class titulo h2 class title section font switch Algunos tecnologias q
如何在Java中读取多行输入

我们的教授正在让我们用 Java 进行一些基本编程他提供了一个网站以及用于注册和提交我们的问题的所有内容因为今天我需要做这个示例我觉得我走在正确的轨道上但我就是做不到弄清楚剩下的事情这是实际的问题 Sample Input 10
Angular 2 ADAL 令牌刷新，用于隐式流程（使用“adal-angular4”）

似乎没有实用的方法来刷新隐式流中的令牌有人能够实现这一目标吗 MS 文档建议在 Iframe 中进行刷新寻找有关在 adal ng2 或 adal js 中调用哪些方法的建议编辑我正在使用这个库https github com be
如何从 Amplify 获取与 API 网关和 cognito 配合使用的访问令牌？

我正在尝试从 Amplify 使用 Vue 获取正确的令牌以使用 Cognito 登录 API 网关到目前为止我尝试过这些 Auth currentSession then data gt console log idToken s d
Meteor 帐户自动登录模式？

我正在考虑使用手机号码注册系统人们可以使用手机号码注册并收到短信来验证他们是否存在此时我想让他们自动登录而无需密码短信基本上就是密码这是以 Lyft 应用程序注册为模式的不需要用户名密码等但对于我的一生我不知道如何做到这一点
从核心音频框架开始

对于我打算很快开始的项目我需要播放压缩和未压缩的音频文件为此我打算使用 Core Audio 框架然而我之前没有音频编程经验我真的不知道从哪里开始是否有任何初学者级别的资源或示例项目可以演示如何使用 Core Audio 构建
Java 不允许泛型类使用内部类数组

我知道您无法创建泛型类型的数组而是必须诉诸黑客鉴于 Java 支持泛型数组只是不支持它们的创建我不清楚为什么 hack 比支持创建泛型数组的 Java 更好而不是写这个 Map Entry
为什么 typeof(int).ToString() 不是常量？

我正在尝试这样做 const string intType typeof int ToString switch typeof MyT ToString case intType return int break 但编译器说错误CS013
基于规则的节点重组

假设我有以下 XML 文件其中包含我想根据规则重新排列的节点
JSF2 无法从 ViewScoped 作为 ManagedProperty 访问 SessionScoped bean

我有一个奇怪的问题 Afaik 我可以将 SessionScoped bean 注入到 viewscoped 中因为它比另一个更广泛这是我的代码 ManagedBean ViewScoped public class ProjectBe
如何在 React-query 中使用惰性查询？

我正在使用 React query 进行 API 调用我想知道是否有一种方法可以以惰性方式调用查询意味着仅当查询参数更改时才调用查询这就是我目前所拥有的我正在使用黑客useEffect哪里如果recipeName更改然后运行ref
Django 与远程 Oracle 服务器的性能非常慢

我正在 Django 中向远程 Oracle 服务器运行原始 SQL 查询查询很长并且花了一分半钟才完成但如果我使用 Oracle SQL Server 程序执行相同的查询则查询运行时间不到一秒为何性能差异如此之大如何加快 Dja
如何在按 Enter 键时 dataGridView 光标转到下一行

我已经编写了以下代码当用户按 Enter 时转到下一个单元格但代码不起作用我无法找到错误 private void dataGridView1 KeyDown object sender KeyEventArgs e if e Key
有没有办法在 Play 商店中设置每个 Android 版本（而不是 API 级别）的应用程序兼容性？

我有一个可以在 Android 2 3 6 上运行的应用程序但会导致干扰 https stackoverflow com questions 14804304 when does android show a pairing dialog
如何将 numpy 数组从某一行开始写入 .txt 文件？ numpy 版本 1.6

At 如何将 numpy 数组从某一行开始写入 txt 文件 https stackoverflow com questions 39483774 how to write numpy arrays to txt file starting
从“Class”分配给“id”的指针类型不兼容

我有一个 Utility 实现的类AVAudioPlayerDelegate协议这是我的实用程序 h interface Utility NSObject
有没有办法让 git 显示添加的行、更改的行和删除的行？

git diff stat and git log stat显示输出如 git diff C stat HEAD c9af3e6136e8aec1f79368c2a6164e56bf7a7e07 app controllers applic
解耦视图、表示和 ASP.NET Web 窗体

我有一个 ASP NET Web 窗体页面演示者需要用控件填充该页面这种交互对页面生命周期有些敏感我想知道它是否有一个我不知道的技巧我想对整个事情保持实际但不妥协可测试性目前我有这个 public interface ISome
Sqoop - 数据分割

Sqoop 能够使用以下方式从多个表导入数据 query子句但不清楚是否能够导入以下查询按部门号从员工组中选择部门号平均工资另一个问题是 sqoop import connect jdbc mysql myserver 1202 u

Sqoop - 数据分割

Sqoop - 数据分割 的相关文章

随机推荐

热门标签

Sqoop - 数据分割的相关文章