win10配置spark

2023-05-16

  • 下载spark压缩包,链接:https://pan.baidu.com/s/1y5JlMdtkrZFyTJWKtuuZ_Q 提取码:z64y。

  • 解压tar.gz文件
    在这里插入图片描述

  • 配置环境变量,系统变量Path中添加spark bin的路径
    在这里插入图片描述

  • 安装hadoop,可参考,注意hadoop版本要和spark对应。

  • 安装pyspark库,pip install pyspark

  • 命令行输入spark-shell,出现以下界面则spark安装成功
    在这里插入图片描述

  • 打开jupyter notebook,测试求圆周率代码

from __future__ import print_function

import sys
from random import random
from operator import add

from pyspark.sql import SparkSession


if __name__ == "__main__":
    """
        Usage: pi [partitions]
    """
    spark = SparkSession\
        .builder\
        .appName("PythonPi")\
        .getOrCreate()

#     partitions = 2 = int(sys.argv[1]) if len(sys.argv) > 1 else 2
    partitions = 2
    n = 100000 * partitions

    def f(_):
        x = random() * 2 - 1
        y = random() * 2 - 1
        return 1 if x ** 2 + y ** 2 <= 1 else 0

    count = spark.sparkContext.parallelize(range(1, n + 1), partitions).map(f).reduce(add)
    print("Pi is roughly %f" % (4.0 * count / n))

    spark.stop()

运行代码,出现以下结果则表明安装pyspark成功
在这里插入图片描述

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

win10配置spark 的相关文章

  • 大数据--pyspark远程连接hive

    上一篇文章介绍了python连接hive的过程 通过地址 端口号访问到hive并对hive中的数据进行操作 这一篇文章介绍一下怎么通过windows本地pyspark 本地部署好的spark 远程虚拟机的hive 完成本地pyspark对h
  • 【pyspark】DataFrame基础操作(二)

    介绍一下 pyspark 的 DataFrame 基础操作 一 选择和访问数据 PySpark DataFrame 是惰性计算的 简单地选择一列不会触发计算 但它会返回一个 Column 实例 并且 大多数按列操作都返回 Column 实例
  • spark dataframe 数据类型转换

    文章目录 1 spark sql数据类型 数字类型 日期类型 复杂类型 2 spark sql和scala数据类型对比 3 spark sql数据类型转换示例 代码 输出 1 spark sql数据类型 数字类型 ByteType 代表一个
  • SparkSQL HiveSQL 常用正则表达式

    SparkSQL HiveSQL 常用正则表达式 目录 SparkSQL HiveSQL 常用正则表达式 1 匹配汉字 2 匹配手机号码 3 匹配身份证 4 SparkSQL HiveSQL 常用正则函数 5 SparkSQL 分组 聚合
  • 【Spark系列2】reduceByKey和groupByKey区别与用法

    在spark中 我们知道一切的操作都是基于RDD的 在使用中 RDD有一种非常特殊也是非常实用的format pair RDD 即RDD的每一行是 key value 的格式 这种格式很像Python的字典类型 便于针对key进行一些处理
  • Kafka/Spark消费topic到写出到topic

    1 Kafka的工具类 1 1 从kafka消费数据的方法 消费者代码 def getKafkaDStream ssc StreamingContext topic String groupId String consumerConfigs
  • Hadoop完全分布式集群——Hadoop 配置

    前面已完成VMware虚拟机安装与配置 参考前一篇Hadoop完全分布式集群 VMware虚拟机安装与配置 夏雨和阳阳的博客 CSDN博客 下面将进行Hadoop 配置 一 slave1 slave2节点配置修改 slave1 slave2
  • 深入理解 SQL 中的 Grouping Sets 语句

    前言 SQL 中 Group By 语句大家都很熟悉 根据指定的规则对数据进行分组 常常和聚合函数一起使用 比如 考虑有表 dealer 表中数据如下 id Int city String car model String quantity
  • 基于Spark的电商用户行为实时分析可视化系统(Flask-SocketIO)

    基于Spark的电商用户行为实时分析可视化系统 Flask SocketIO 项目简介 该项目已上线蓝桥课程 有需要的可凭邀请码 UB5mdLbl 学习哦 有优惠 课程地址 https www lanqiao cn courses 2629
  • Spark Job写文件个数的控制以及小文件合并的一个优化

    文章目录 背景说明 通过引入额外Shuffle对写入数据进行合并 EnsureRepartitionForWriting Rule CoalesceShufflePartitions Rule OptimizeShuffleWithLoca
  • Spark 从入门到放弃(一)Spark基础概念

    一 Spark基础概念 1 Application Spark应用程序 application 应用 其实就是用spark submit提交的程序 一个application通常包含三部分 从数据源 比方说HDFS 取数据形成RDD 通过R
  • Impala presto hbase hive sparksql

    Impala 技术点梳理 http www cnblogs com TiestoRay p 10243365 html Impala 优点 实时性查询 计算的中间结果不写入磁盘 缺点 对于内存的依赖过于严重 内存溢出直接导致技术任务的失败
  • spark中repartition和coalesce的区别

    总的来讲 两者 对是否允许shuffle 不同 coalesce numPartitions shuffle false repartition numPartitions repartition 其实是 coalesce 中参数shuff
  • 使用Flink1.16.0的SQLGateway迁移Hive SQL任务

    使用Flink的SQL Gateway迁移Hive SQL任务 前言 我们有数万个离线任务 主要还是默认的DataPhin调度CDP集群的Hive On Tez这种低成本任务 当然也有PySpark 打Jar包的Spark和打Jar包的Fl
  • Flume之:二、企业开发案例

    Flume之 二 企业开发案例 文章目录 Flume之 二 企业开发案例 三 企业开发案例 1 监控端口数据官方案例 2 实时读取本地文件到HDFS案例 3 实时读取目录文件到HDFS案例 4 flume监控Kafka gt Spark知识
  • 【硬刚大数据之学习路线篇】2021年从零到大数据专家的学习指南(全面升级版)

    欢迎关注博客主页 https blog csdn net u013411339 本文由 王知无 原创 首发于 CSDN博客 本文首发CSDN论坛 未经过官方和本人允许 严禁转载 欢迎点赞 收藏 留言 欢迎留言交流 声明 本篇博客在我之前发表
  • sparkstreamming 消费kafka(2)

    spark streaming提供了两种获取方式 一种是同storm一样 实时读取缓存到内存中 另一种是定时批量读取 这两种方式分别是 Receiver base Direct 一 Receiver base Spark官方最先提供了基于R
  • sparkstreamming 消费kafka(1)

    pom
  • 【win10】 设置应用开机自启动

    步骤如下 1 按Win r键 输入 shell startup 2 确定后会出现一个文件夹 把要开机启动的应用快捷方式放到里面 3 在任务管理器的启动里面进行设置 可以在状态字段选择启用或者禁用 放在文件夹里只是让它可以在任务管理器的启动里
  • 阿里技术官亲笔力作:Kafka限量笔记,一本书助你掌握Kafka的精髓

    前言 分布式 堪称程序员江湖中的一把利器 无论面试还是职场 皆是不可或缺的技能 而Kafka 这款分布式发布订阅消息队列的璀璨明珠 其魅力之强大 无与伦比 对于Kafka的奥秘 我们仍需继续探索 要论对Kafka的熟悉程度 恐怕阿里的大佬们

随机推荐

  • 【seaborn】绘制概率密度估计图

    span class token keyword import span seaborn span class token keyword as span sns plt span class token punctuation span
  • 【C++】Socket通信例子

    创建两个工程文件 xff0c Server和Client 服务器模板代码 span class token macro property span class token directive keyword include span spa
  • 【STL】map基本用法

    C 43 43 中的map类似于python中的字典 xff0c 形如 lt key value gt 对 创建map对象 可以像python中的字典一样直接使用IDMPA key 获取对应的值 span class token macro
  • 【string】字符串拷贝strcpy

    strcpy即string copy span class token keyword char span span class token operator span str span class token operator 61 sp
  • web控件开发

    https www bbsmax com A gGdX6v11J4 https open chrome 360 cn extension dev overview html 扩展示例 Mozilla MDN https edge micro
  • 【string】获取字符串长度strlen

    span class token keyword char span str span class token punctuation span span class token punctuation span span class to
  • 【string】int转string to_string

    使用to string函数将整型变量转为字符串 span class token keyword int span n span class token operator 61 span span class token number 10
  • 【C++】string、char*互相转换

    string 2 char c str 方法返回一个const char 类型的指针变量 xff0c 使用strcpy函数copy string str span class token operator 61 span span clas
  • 【string】字符串分割strock

    使用strock将字符串按特定分隔符分割 span class token macro property span class token directive keyword include span span class token st
  • 【string】字符串转int stoi

    使用stoi函数将字符串转为int型 xff0c 需要 include lt string gt span class token keyword char span chs span class token punctuation spa
  • Visual Studio解决const char *与LPCWSTR 不兼容

    项目 gt 属性 gt 配置属性 gt 高级 xff0c 将字符集改为未设置
  • 【C++】文件读写指针定位

    主要函数 xff1a 指针定位函数SetFilePointer xff0c 读文件ReadFile xff0c 写文件WriteFile 首先使用CreateFile创建文件 xff0c SetFilePointer函数将指针定位到文件指定
  • 【C++】程序计时

    span class token macro property span class token directive keyword include span span class token string lt iostream gt s
  • 【双指针】15.三数之和

    题目 给你一个包含 n 个整数的数组 nums xff0c 判断 nums 中是否存在三个元素 a xff0c b xff0c c xff0c 使得 a 43 b 43 c 61 0 xff1f 请你找出所有满足条件且不重复的三元组 注意
  • 函数定义中的冒号和箭头

    函数中变量后面加冒号和类型表示该参数的建议类型 xff0c 如下参数A的建议类型是int xff0c 参数B的建议类型是str xff0c gt 表示该函数的返回值类型 xff0c 例如fun函数的返回值类型是str span class
  • chrom控件命令行加载

    34 C Users lt name gt AppData Local Google Chrome Application chrome exe 34 load extension 61 34 lt path to unpacked ext
  • 【二叉树】创建、先序遍历、中序遍历、后序遍历、层序遍历 Java实现

    二叉树的创建 二叉树的创建可以采用递归方式 xff0c 传入一个数组 xff0c 例如数组 3 9 20 null null 15 7 表示的二叉为 span class token number 3 span span class tok
  • 【二叉树】平衡二叉树

    平衡二叉树是一种二叉查找树又称为AVL树 Adelsen Velskii and Landis xff0c 特点为每个节点的左 右子树深度之差的绝对值不大于1 xff0c 左子树的值小于右子树 xff0c 重要操作为插入和删除 插入 插入新
  • win10搭建hadoop2.7.7

    配置java环境 配置java环境 xff0c 官网下载jdk较慢 xff0c 百度网盘 xff1a 链接 xff1a https pan baidu com s 1wX7LxPMjcS9QGc4c4cPJgw 提取码 xff1a 9e38
  • win10配置spark

    下载spark压缩包 xff0c 链接 xff1a https pan baidu com s 1y5JlMdtkrZFyTJWKtuuZ Q 提取码 xff1a z64y 解压tar gz文件 配置环境变量 xff0c 系统变量Path中