win10配置spark

2023-05-16

下载spark压缩包，链接：https://pan.baidu.com/s/1y5JlMdtkrZFyTJWKtuuZ_Q 提取码：z64y。
解压tar.gz文件
配置环境变量，系统变量Path中添加spark bin的路径
安装hadoop，可参考，注意hadoop版本要和spark对应。
安装pyspark库，pip install pyspark
命令行输入spark-shell，出现以下界面则spark安装成功
打开jupyter notebook，测试求圆周率代码

from __future__ import print_function

import sys
from random import random
from operator import add

from pyspark.sql import SparkSession


if __name__ == "__main__":
    """
        Usage: pi [partitions]
    """
    spark = SparkSession\
        .builder\
        .appName("PythonPi")\
        .getOrCreate()

#     partitions = 2 = int(sys.argv[1]) if len(sys.argv) > 1 else 2
    partitions = 2
    n = 100000 * partitions

    def f(_):
        x = random() * 2 - 1
        y = random() * 2 - 1
        return 1 if x ** 2 + y ** 2 <= 1 else 0

    count = spark.sparkContext.parallelize(range(1, n + 1), partitions).map(f).reduce(add)
    print("Pi is roughly %f" % (4.0 * count / n))

    spark.stop()

运行代码，出现以下结果则表明安装pyspark成功
在这里插入图片描述

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

win10

spark

win10配置spark 的相关文章

大数据--pyspark远程连接hive

上一篇文章介绍了python连接hive的过程通过地址端口号访问到hive并对hive中的数据进行操作这一篇文章介绍一下怎么通过windows本地pyspark 本地部署好的spark 远程虚拟机的hive 完成本地pyspark对h
【pyspark】DataFrame基础操作（二）

介绍一下 pyspark 的 DataFrame 基础操作一选择和访问数据 PySpark DataFrame 是惰性计算的简单地选择一列不会触发计算但它会返回一个 Column 实例并且大多数按列操作都返回 Column 实例
spark dataframe 数据类型转换

文章目录 1 spark sql数据类型数字类型日期类型复杂类型 2 spark sql和scala数据类型对比 3 spark sql数据类型转换示例代码输出 1 spark sql数据类型数字类型 ByteType 代表一个
SparkSQL HiveSQL 常用正则表达式

SparkSQL HiveSQL 常用正则表达式目录 SparkSQL HiveSQL 常用正则表达式 1 匹配汉字 2 匹配手机号码 3 匹配身份证 4 SparkSQL HiveSQL 常用正则函数 5 SparkSQL 分组聚合
【Spark系列2】reduceByKey和groupByKey区别与用法

在spark中我们知道一切的操作都是基于RDD的在使用中 RDD有一种非常特殊也是非常实用的format pair RDD 即RDD的每一行是 key value 的格式这种格式很像Python的字典类型便于针对key进行一些处理
Kafka/Spark消费topic到写出到topic

1 Kafka的工具类 1 1 从kafka消费数据的方法消费者代码 def getKafkaDStream ssc StreamingContext topic String groupId String consumerConfigs
Hadoop完全分布式集群——Hadoop 配置

前面已完成VMware虚拟机安装与配置参考前一篇Hadoop完全分布式集群 VMware虚拟机安装与配置夏雨和阳阳的博客 CSDN博客下面将进行Hadoop 配置一 slave1 slave2节点配置修改 slave1 slave2
深入理解 SQL 中的 Grouping Sets 语句

前言 SQL 中 Group By 语句大家都很熟悉根据指定的规则对数据进行分组常常和聚合函数一起使用比如考虑有表 dealer 表中数据如下 id Int city String car model String quantity
基于Spark的电商用户行为实时分析可视化系统（Flask-SocketIO）

基于Spark的电商用户行为实时分析可视化系统 Flask SocketIO 项目简介该项目已上线蓝桥课程有需要的可凭邀请码 UB5mdLbl 学习哦有优惠课程地址 https www lanqiao cn courses 2629
Spark Job写文件个数的控制以及小文件合并的一个优化

文章目录背景说明通过引入额外Shuffle对写入数据进行合并 EnsureRepartitionForWriting Rule CoalesceShufflePartitions Rule OptimizeShuffleWithLoca
Spark 从入门到放弃（一）Spark基础概念

一 Spark基础概念 1 Application Spark应用程序 application 应用其实就是用spark submit提交的程序一个application通常包含三部分从数据源比方说HDFS 取数据形成RDD 通过R
Impala presto hbase hive sparksql

Impala 技术点梳理 http www cnblogs com TiestoRay p 10243365 html Impala 优点实时性查询计算的中间结果不写入磁盘缺点对于内存的依赖过于严重内存溢出直接导致技术任务的失败
spark中repartition和coalesce的区别

总的来讲两者对是否允许shuffle 不同 coalesce numPartitions shuffle false repartition numPartitions repartition 其实是 coalesce 中参数shuff
使用Flink1.16.0的SQLGateway迁移Hive SQL任务

使用Flink的SQL Gateway迁移Hive SQL任务前言我们有数万个离线任务主要还是默认的DataPhin调度CDP集群的Hive On Tez这种低成本任务当然也有PySpark 打Jar包的Spark和打Jar包的Fl
Flume之：二、企业开发案例

Flume之二企业开发案例文章目录 Flume之二企业开发案例三企业开发案例 1 监控端口数据官方案例 2 实时读取本地文件到HDFS案例 3 实时读取目录文件到HDFS案例 4 flume监控Kafka gt Spark知识
【硬刚大数据之学习路线篇】2021年从零到大数据专家的学习指南(全面升级版)

欢迎关注博客主页 https blog csdn net u013411339 本文由王知无原创首发于 CSDN博客本文首发CSDN论坛未经过官方和本人允许严禁转载欢迎点赞收藏留言欢迎留言交流声明本篇博客在我之前发表
sparkstreamming 消费kafka(2)

spark streaming提供了两种获取方式一种是同storm一样实时读取缓存到内存中另一种是定时批量读取这两种方式分别是 Receiver base Direct 一 Receiver base Spark官方最先提供了基于R
sparkstreamming 消费kafka(1)

pom
【win10】设置应用开机自启动

步骤如下 1 按Win r键输入 shell startup 2 确定后会出现一个文件夹把要开机启动的应用快捷方式放到里面 3 在任务管理器的启动里面进行设置可以在状态字段选择启用或者禁用放在文件夹里只是让它可以在任务管理器的启动里
阿里技术官亲笔力作：Kafka限量笔记，一本书助你掌握Kafka的精髓

前言分布式堪称程序员江湖中的一把利器无论面试还是职场皆是不可或缺的技能而Kafka 这款分布式发布订阅消息队列的璀璨明珠其魅力之强大无与伦比对于Kafka的奥秘我们仍需继续探索要论对Kafka的熟悉程度恐怕阿里的大佬们

随机推荐

【seaborn】绘制概率密度估计图

span class token keyword import span seaborn span class token keyword as span sns plt span class token punctuation span
【C++】Socket通信例子

创建两个工程文件 xff0c Server和Client 服务器模板代码 span class token macro property span class token directive keyword include span spa
【STL】map基本用法

C 43 43 中的map类似于python中的字典 xff0c 形如 lt key value gt 对创建map对象可以像python中的字典一样直接使用IDMPA key 获取对应的值 span class token macro
【string】字符串拷贝strcpy

strcpy即string copy span class token keyword char span span class token operator span str span class token operator 61 sp
web控件开发

https www bbsmax com A gGdX6v11J4 https open chrome 360 cn extension dev overview html 扩展示例 Mozilla MDN https edge micro
【string】获取字符串长度strlen

span class token keyword char span str span class token punctuation span span class token punctuation span span class to
【string】int转string to_string

使用to string函数将整型变量转为字符串 span class token keyword int span n span class token operator 61 span span class token number 10
【C++】string、char*互相转换

string 2 char c str 方法返回一个const char 类型的指针变量 xff0c 使用strcpy函数copy string str span class token operator 61 span span clas
【string】字符串分割strock

使用strock将字符串按特定分隔符分割 span class token macro property span class token directive keyword include span span class token st
【string】字符串转int stoi

使用stoi函数将字符串转为int型 xff0c 需要 include lt string gt span class token keyword char span chs span class token punctuation spa
Visual Studio解决const char *与LPCWSTR 不兼容

项目 gt 属性 gt 配置属性 gt 高级 xff0c 将字符集改为未设置
【C++】文件读写指针定位

主要函数 xff1a 指针定位函数SetFilePointer xff0c 读文件ReadFile xff0c 写文件WriteFile 首先使用CreateFile创建文件 xff0c SetFilePointer函数将指针定位到文件指定
【C++】程序计时

span class token macro property span class token directive keyword include span span class token string lt iostream gt s
【双指针】15.三数之和

题目给你一个包含 n 个整数的数组 nums xff0c 判断 nums 中是否存在三个元素 a xff0c b xff0c c xff0c 使得 a 43 b 43 c 61 0 xff1f 请你找出所有满足条件且不重复的三元组注意
函数定义中的冒号和箭头

函数中变量后面加冒号和类型表示该参数的建议类型 xff0c 如下参数A的建议类型是int xff0c 参数B的建议类型是str xff0c gt 表示该函数的返回值类型 xff0c 例如fun函数的返回值类型是str span class
chrom控件命令行加载

34 C Users lt name gt AppData Local Google Chrome Application chrome exe 34 load extension 61 34 lt path to unpacked ext
【二叉树】创建、先序遍历、中序遍历、后序遍历、层序遍历 Java实现

二叉树的创建二叉树的创建可以采用递归方式 xff0c 传入一个数组 xff0c 例如数组 3 9 20 null null 15 7 表示的二叉为 span class token number 3 span span class tok
【二叉树】平衡二叉树

平衡二叉树是一种二叉查找树又称为AVL树 Adelsen Velskii and Landis xff0c 特点为每个节点的左右子树深度之差的绝对值不大于1 xff0c 左子树的值小于右子树 xff0c 重要操作为插入和删除插入插入新
win10搭建hadoop2.7.7

配置java环境配置java环境 xff0c 官网下载jdk较慢 xff0c 百度网盘 xff1a 链接 xff1a https pan baidu com s 1wX7LxPMjcS9QGc4c4cPJgw 提取码 xff1a 9e38
win10配置spark

下载spark压缩包 xff0c 链接 xff1a https pan baidu com s 1y5JlMdtkrZFyTJWKtuuZ Q 提取码 xff1a z64y 解压tar gz文件配置环境变量 xff0c 系统变量Path中

win10配置spark

win10配置spark 的相关文章

随机推荐

热门标签