Python
Java
PHP
IOS
Android
Nodejs
JavaScript
Html5
Windows
Ubuntu
Linux
如何使用 Spark SQL 解析 JSON 对象数组
现在 JSON 数据如下 Id 11 data package com browser1 activetime 60000 package com browser6 activetime 1205000 package com browse
json
scala
apachespark
apachesparksql
Bigdata
在 R 中导入大型 .CSV 文件并在第二行中使用标题时存在较长的滞后时间
我正在开发一个应用程序 该应用程序从 csv 中获取数据 然后对其进行一些计算 挑战在于 csv 的大小可能非常大 我在这里查看了许多讨论使用各种函数和库导入大型 csv 文件的帖子 一些示例如下 size of csv file 689
r
csv
Bigdata
在 R 中导入大型 .CSV 文件并在第二行中使用标题时存在较长的滞后时间
我正在开发一个应用程序 该应用程序从 csv 中获取数据 然后对其进行一些计算 挑战在于 csv 的大小可能非常大 我在这里查看了许多讨论使用各种函数和库导入大型 csv 文件的帖子 一些示例如下 size of csv file 689
r
csv
Bigdata
记录所有 presto 查询
如何将提交到 presto 集群的所有查询存储在文件 ORC 文件 或其他数据库中 目的是保存在 presto 工作线程上执行的所有查询的记录 我知道我需要覆盖 queryCompleted 方法 我也尝试遵循this https grou
Java
Maven
Bigdata
presto
我收到类似 Error in if (file.access(phantompath, 1) < 0) { 的错误:当我使用 Phantomjs(port = 4567l) 时,参数的长度为零
我的代码是 library RSelenium library wdman pDrv lt phantomjs port 4567L 以下是运行上述代码后出现的错误 checking phantomjs versions BEGIN PRE
r
PhantomJS
screenscraping
rselenium
Bigdata
如何在 Hive 中使用 NOT IN
假设我有 2 个表 如下所示 现在 如果我想获得 sql 将给出的结果 insert into B where id not in select id from A 这将插入3 George在表B中 如何在蜂巢中实现这一点 Table A
Hadoop
hive
Bigdata
Scala 不可变 Map 速度慢
当我创建地图时 我有一段代码 val map gtfLineArr 8 split map split collect case Array k v gt k v toMap 然后我使用这张地图来创建我的对象 case class MyOb
Java
performance
scala
functionalprogramming
Bigdata
Spark 分区/集群强制
我将使用大量结构如下的文件 day hour min txt gz 总共14天 我将使用一个包含 90 个节点 工作人员的集群 我正在阅读所有内容wholeTextFiles 因为这是允许我适当分割数据的唯一方法 所有计算将以每分钟为基础
file
apachespark
distributedcomputing
partitioning
Bigdata
我需要比较两个数据帧以进行类型验证并发送非零值作为输出
我正在比较两个数据帧 基本上 这些是两个不同数据源的模式 一个来自 hive 另一个来自 SAS9 2 我需要验证两个数据源的结构 因此我将模式转换为两个数据帧 它们是 SAS 架构将采用以下格式 scala gt metadata sho
scala
apachespark
Bigdata
准备与大数据相关的设计和架构问题的最佳方法[关闭]
就目前情况而言 这个问题不太适合我们的问答形式 我们希望答案得到事实 参考资料或专业知识的支持 但这个问题可能会引发辩论 争论 民意调查或扩展讨论 如果您觉得这个问题可以改进并可能重新开放 访问帮助中心 help reopen questi
Algorithm
datastructures
Bigdata
大型数据集上的 Sklearn-GMM
我有一个很大的数据集 我无法将整个数据放入内存中 我想在这个数据集上拟合 GMM 我可以用吗GMM fit sklearn mixture GMM 重复小批量数据 没有理由重复贴合 只需随机采样您认为机器可以在合理时间内计算的尽可能多的数据
python
scikitlearn
Bigdata
mixturemodel
如何使用 PySpark 有效地将这么多 csv 文件(大约 130,000 个)合并到一个大型数据集中?
我之前发布了这个问题并得到了一些使用 PySpark 的建议 如何有效地将这一大数据集合并到一个大数据框中 https stackoverflow com questions 60259271 how can i merge this la
python
apachespark
memory
PySpark
Bigdata
Flink:Jobmanager UI 中设置的并行度与任务槽有何关系?
假设我有 8 个任务管理器和 16 个任务槽 如果我使用 Jobmanager UI 提交作业并将并行度设置为 8 我是否只使用 8 个任务槽 如果我有 8 个具有 8 个槽位的任务管理器 并以并行度 8 提交相同的作业 该怎么办 是完全一
parallelprocessing
Bigdata
apacheflink
distributedcomputing
如何从spark中的hbase表中获取所有数据
我在 hbase 中有一个大表 名称为 UserAction 它具有三个列族 歌曲 专辑 歌手 我需要从 歌曲 列族中获取所有数据作为 JavaRDD 对象 我尝试了这段代码 但效率不高 有更好的解决方案来做到这一点吗 static Spa
Java
MapReduce
Hbase
Bigdata
apachespark
在 Shiny 中的用户会话之间共享反应数据集
我有一个相当大的反应数据集 该数据集是通过轮询文件然后按预定义的时间间隔读取该文件而派生的 数据更新频繁 需要不断重新加载 诚然 重新加载可以增量完成并附加到 R 中的现有对象 但事实并非如此 然而目前 尽管会话中的数据相同 但此操作是针对
r
shiny
globalvariables
polling
Bigdata
Spark KMeans 无法处理大数据吗?
KMeans 有几个参数training http spark apache org docs latest api python pyspark mllib html highlight kmeans pyspark mllib clus
python
apachespark
kmeans
apachesparkmllib
Bigdata
我们可以使用什么方法来重塑非常大的数据集?
当由于非常大的数据计算将花费很长时间并且因此我们不希望它们崩溃时 事先知道要使用哪种重塑方法是很有价值的 Lately methods for reshaping data have been further developed regar
r
performance
Bigdata
reshape
使用 awk 处理多个文件
我必须使用 awk 处理大量 txt 文件 每个文件 1600 万行 我必须阅读例如十个文件 File 1 en sample 1 200 en n sample 2 10 en sample 3 10 File 2 en sample 1
Linux
bash
unix
awk
Bigdata
CSS3变换:翻译最大值?
我创建了一个实验无限滚动 Pi 的前十亿位 https daniellamb com experiments infinite pi 寻找 创建一个具有大量数据集的高性能滚动解决方案 我开始测试iScroll http iscrolljs
css
Googlechrome
infinitescroll
Bigdata
未能在kafka-storm中将偏移量数据写入zookeeper
我正在设置一个风暴集群来计算实时趋势和其他统计数据 但是我在将 恢复 功能引入到这个项目中时遇到了一些问题 方法是允许上次读取的偏移量kafka spout 源代码为kafka spout来自https github com apache
Bigdata
apachezookeeper
apachestorm
ApacheKafka
1
2
3
4
5
6
...12
»