使用 Apache Spark 进行高效计数

2024-02-14

1 亿客户在几个网站（假设有 100 个网站）的页面上点击了 1000 亿次。您可以在大型数据集中获取点击流。

使用 Apache Spark 的抽象，计算每个网站的不同访问者的最有效方法是什么？

visitors.distinct().count()将是显而易见的方法，第一种方法是不同的，您可以指定并行性级别，并且还可以看到速度的改进。如果可以将访客设置为流并使用 D 流，则可以实时进行计数。您可以直接从目录进行流式传输，并使用与 RDD 上相同的方法，例如：

val file = ssc.textFileStream("...") file.distinct().count()

最后一个选项是使用def countApproxDistinct(relativeSD: Double = 0.05): Long然而，这被标记为实验性的，但会比计数快得多，如果relativeSD（标准偏差）较高。

EDIT:由于您希望每个网站的计数可以减少网站 ID，因此可以有效地完成此操作（使用组合器），因为计数是聚合的。如果您有网站名称用户 ID 元组的 RDD，您可以这样做。visitors.countDistinctByKey() or visitors.countApproxDistinctByKey()，这个近似值又是实验性的。要使用大约不同的键，您需要一个PairRDD http://people.apache.org/~pwendell/spark-1.0.0-rc6-docs/api/scala/index.html#org.apache.spark.rdd.PairRDDFunctions

有趣的旁注，如果您可以接受近似值并且想要快速获得结果，您可能需要研究一下blinkDB http://blinkdb.org由与 Spark amp 实验室相同的人制造。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Distinct

apachespark

使用 Apache Spark 进行高效计数的相关文章

如何避免连续“重置偏移量”和“寻找最新偏移量”？

我正在尝试遵循本指南 https spark apache org docs latest structed streaming kafka integration html https spark apache org docs late
使用 JPA 和 Hibernate 时 DISTINCT 如何工作

DISTINCT 在 JPA 中使用什么列是否可以更改它以下是使用 DISTINCT 的 JPA 查询示例 select DISTINCT c from Customer c 这没有多大意义不同的列是基于哪一列它是否在实体上指定为注
scalac 编译生成“对象 apache 不是包 org 的成员”

我的代码是 import org apache spark SparkContext 它可以在交互模式下运行但是当我使用 scalac 编译它时出现以下错误消息对象 apache 不是包 org 的成员这似乎是路径的问题但我不知道
count(distinct) over (partition by... 在 Oracle SQL 中不起作用

我想数一下distinct day number过去 30 天但是 distinct 函数不能与over 如果我删除distinct 它会给我总数day number but day number可以有很多重复的所以这就是为什么我想添加
在 Spark 中写入 JSON 时保留具有空值的键

我正在尝试使用 Spark 编写 JSON 文件有一些键有null作为价值这些在中显示得很好DataSet 但是当我写入文件时密钥会丢失我如何确保它们被保留写入文件的代码 ddp coalesce 20 write mode ov
如何对 RDD 进行分区

我有一个文本文件其中包含大量由空格分隔的随机浮动值我正在将此文件加载到 scala 中的 RDD 中这个RDD是如何分区的另外是否有任何方法可以生成自定义分区以便所有分区都具有相同数量的元素以及每个分区的索引 val dRDD
根据条件组合 Spark 数据帧列中的多行

我正在尝试根据条件组合 Spark 数据框中的多行这是我的数据框 df username qid row no text a 1 1 this a 1 2 is d 2 1 the a 1 3 text d 2 2 ball 我希望它看起
警告 ReliableDeliverySupervisor：与远程系统的关联失败，地址现已门控 [5000] 毫秒。原因：[已解除关联]

我正在 aws Spark 上运行以下句子 val sqlContext new org apache spark sql SQLContext sc import sqlContext implicits case class Wiki
更改spark_temporary目录路径

是否可以更改 temporarySpark在写入之前保存临时文件的目录特别是由于我正在编写表的单个分区因此我希望临时文件夹位于分区文件夹内是否可以由于其实现原因无法使用默认的 FileOutputCommiter FileOut
如何从 Spark MLLib 中的 TF Vector RDD 获取单词详细信息？

我使用创建了术语频率HashingTF在斯帕克我已经使用术语频率tf transform对于每个单词但结果是以这种格式显示的
Spark - Scala - 用另一个数据帧中的查找值替换数据帧中的值

我正在 Databricks 上使用 Spark 编程语言是Scala 我有两个数据框主要数据框见截图 1 https i stack imgur com EShir png 查找数据框见截图3 https i stack imgur
Spark 物理计划和逻辑计划

我有两个问题在不添加任何额外代码来打印提交的 Spark 作业的逻辑和物理计划的情况下有没有办法查看集群上运行的 Spark 作业的物理和逻辑计划有没有办法动态修改集群上正在运行的 Spark 作业的执行计划以获得更好的性能请分享您
Spark：用列的平均值替换数据框中的空值

如何创建 UDF 以编程方式将每列中 Spark 数据框中的空值替换为列平均值例如在示例中数据 col1 空值的值为 2 4 6 8 5 5 5 示例数据 col1 col2 col3 2 null 3 4 3 3 6 5 null
如何从 SparkSQL DataFrame 中的 MapType 列获取键和值

我的镶木地板文件中有数据该文件有 2 个字段 object id String and alpha Map lt gt 它被读入 SparkSQL 中的数据帧其架构如下所示 scala gt alphaDF printSchema ro
使用 scala 从 Spark 中的数组数组中的结构中提取值

我正在使用 scala 将 json 数据读入 Spark 数据帧架构如下 root metadata array nullable true element struct containsNull true playerId strin
Spark - 如何在本地运行独立集群

是否有可能运行Spark独立集群仅在一台机器上进行本地操作这与仅在本地开发作业基本上不同即local 到目前为止我正在运行 2 个不同的虚拟机来构建集群如果我可以在同一台机器上运行一个独立的集群该怎么办例如三个不同的 JVM 正
不支持的身份验证令牌，仅当禁用身份验证时才允许 schema='none'：{ schema='none' } - Neo4j 身份验证错误

我正在尝试使用 neo4j spark connector 从 Spark 连接到 Neo4j 当我尝试连接到 Neo4j 时遇到身份验证问题org neo4j driver v1 exceptions AuthenticationExce
任务和分区之间有什么关系？

我能说么 Spark任务的数量等于Spark分区的数量吗执行器运行一次执行器内部的批处理等于一个任务吗每个任务只产生一个分区 1 的重复并行度或可以同时运行的任务数量由以下公式设置 Executor实例的数量配置每个执行器的
Spark 结构化流中具有不同计数的聚合抛出错误

我正在尝试在 Spark 结构化流中获取 Parentgroup childgroup 和 MountingType 组的唯一 id 代码下面的代码抛出错误 withWatermark timestamp 1 minutes val ag
使用 Spark DataFrame 获取组后所有组的 TopN

我有一个 Spark SQL DataFrame user1 item1 rating1 user1 item2 rating2 user1 item3 rating3 user2 item1 rating4 如何按用户分组然后返回TopN

随机推荐

如何获取neo4j路径中的最后一个节点？

在这个密码查询中将返回与 STATUS on 属性有关系的节点之间的最长路径但我还想获取路径的最后一个节点 query START n node MATCH p n rels INCLUDE gt m WHERE ALL rel IN
具有负权重的 Dijkstra 算法

我们可以使用具有负权重的 Dijkstra 算法吗 STOP 在你认为哈哈你可以在两点之间无休止地跳跃并获得一条无限便宜的路径之前我更倾向于考虑单向路径其应用是具有点的山区地形显然从高到低并不需要能量事实上它会产生能量因
Facebook 身份验证对话框：开发人员关于使用“显示”类型“弹出窗口”的警告

从今天开始我们在身份验证对话框中收到开发人员警告其中包含以下消息您在大型浏览器窗口或选项卡中使用弹出窗口显示类型为了获得更好的用户体验请使用我们的 JavaScript SDK 显示此对话框而不指定显式显示类型 SDK 将为
Windows 上的 Data.ByteString.Lazy.Char8 换行符转换——文档是否具有误导性？

我对字节串库中的 Data ByteString Lazy Char8 库有疑问具体来说我的问题涉及 readFile 函数其记录如下将整个文件延迟读取到 ByteString 中在 Windows 上使用文本模式来解释换行符
从动态元素获取动态Id

我有带有动态 ID 的 div 元素 div div div div div div div div div div div div 所有元素id parent 除外可由用户从输入字段进行编辑因此 parent 的最后一个子级可能具有用
C. Break、Switch、If 中的愚蠢错误。 1990 年电话网络崩溃 [已关闭]

很难说出这里问的是什么这个问题是含糊的模糊的不完整的过于宽泛的或修辞性的无法以目前的形式得到合理的回答如需帮助澄清此问题以便重新打开访问帮助中心 help reopen questions 我犹豫着要不要问这个问题因为这看起
sed 创建重复行而不是替换现有行

我有一个包含以下内容的文件 foo txt some text 0 我使用以下 sed 命令将 0 替换为 1 search text some text sed s search text 0 search text 1 i foo tx
从我的网络服务缓存图像 url 的最佳方法？

我已经实现了一个 ARC 格式的应用程序但我想在库的缓存文件夹中缓存一些图像网址任何想法提前致谢我希望它能帮助你我用SDWeb图像 https github com rs SDWebImage与我的所有项目 using 添加您的视
如何在 Selenium 中更改 Google Chrome 用户代理？

我正在尝试找出一种方法每当我在这个特定的脚本中通过 Selenium Python 打开 Chrome 时 Chrome 页面就会自动打开并选择另一个用户代理在本例中为 Microsoft Edge Mobile 但我将从桌面访问它因
YouTube API v3 上传速度

我一直在使用 YouTube API v3 进行一些测试使用以下命令上传 Apache 服务器在 Virtuozzo 上运行 CENTOS 6 7 x86 64 的 VPS 2GB RAM 和大量 CPU 上现有的视频文件提供断点续传脚
离线语音识别时出现错误 ERROR_RECOGNIZER_BUSY

我对谷歌离线语音识别进行了研究但它在 google Nexus 5 操作系统 4 4 中工作正常但如果我在三星 Galaxy s5 操作系统 5 0 中实现相同的版本它无法识别并且显示此错误 8 ERROR RECOGNIZER BU
需要配置哪些信息才能连接对方的Kafka

我在网上看到了keystore和truststore证书有人说两者之一有人说他们两者都需要在我的业务中我需要支持 SSL 和 PLAIN 模式区分使用哪种模式的基础是传入 JSON 中的 security protocol 字段是
如何将 int 转换为货币？

我正在使用Delphi 2009 我问了我的问题但我得到的答案已经过时了因为它无法识别Delphi2009中的StrtoFloat 我问如何将整数例如 1900000 转换为 1 900 000 您还可以使用格式命令由于格式需要实数
我的应用程序如何修改商店的模板文件

安装应用程序时我需要将液体标记注入商店的主题模板我知道有 ScriptTags 但它们加载脚本我知道脚本可以更改页面的 DOM 但我需要将我的液体安装到产品详细信息页面是否可以我会将您的 Liquid 添加为新的片段资产然后可
合并两个 EF 查询，无法将 System.Data.Entity.Infrastruct.DbQuery 类型的对象强制转换为 System.Collections.Generic.IEnumerable

我有两个实体框架查询每个查询返回两列并且我想出于绑定原因连接或连接两个查询的结果我已经尝试过Concat方法但它抛出无法转换类型的对象 System Data Entity Infrastructure DbQuery 1 VB
Python中的正则表达式：仅当不在列表中时将单词与数字分开

我有一个包含一些我需要保留的替代品的列表例如替换列表 1st 2nd 10th 100th 1st nation xlr8 5pin h20 一般来说包含字母数字字符的字符串需要按如下方式拆分数字和字母 text re sub r l
可以使用 DataEventArgs 而不是自定义事件数据类吗？

正在使用通用的DataEventArgs
iOS8 中的表格视图单元格自动布局

我似乎无法在我的表视图单元格上使用自动布局在某些细胞上它似乎起作用而在另一些细胞上它似乎不起作用即使是完全相同类型的细胞例如在某些单元格上描述将超过 1 行文本并且它将正常工作然而在其他单元格上描述将包含超过 1 行的文
设置用户权限时“SHOW 命令被拒绝给用户”

我需要使用 MYSQL 将用户 UPDATE 和 SELECT 授予数据库中的两个特定列我使用下面的命令来执行此操作 GRANT SELECT title new title catagory description runtime UP
使用 Apache Spark 进行高效计数

1 亿客户在几个网站假设有 100 个网站的页面上点击了 1000 亿次您可以在大型数据集中获取点击流使用 Apache Spark 的抽象计算每个网站的不同访问者的最有效方法是什么 visitors distinct count

使用 Apache Spark 进行高效计数

使用 Apache Spark 进行高效计数 的相关文章

随机推荐

热门标签

使用 Apache Spark 进行高效计数的相关文章