spark机器学习训练模型示例（一）

2023-10-31

利用逻辑回归建立模型，建立训练集和测试集

from pyspark.ml import Pipeline
from pyspark.ml.classification import LogisticRegression
from pyspark.ml.feature import HashingTF, Tokenizer
 
# 从(id, text, label)元祖列表得到一个训练样本（DataFrame）.
training = spark.createDataFrame([
    (0, "a b c d e spark", 1.0),
    (1, "b d", 0.0),
    (2, "spark f g h", 1.0),
    (3, "hadoop mapreduce", 0.0)
], ["id", "text", "label"])
 
# 配置 ML pipeline,包含三个阶段: tokenizer, hashingTF, 和 lr.
tokenizer = Tokenizer(inputCol="text", outputCol="words")
hashingTF = HashingTF(inputCol=tokenizer.getOutputCol(), outputCol="features")
lr = LogisticRegression(maxIter=10, regParam=0.001)
pipeline = Pipeline(stages=[tokenizer, hashingTF, lr])
#现在构建的Pipeline本质上是一个Estimator，在它的fit()方法运行之后，它将产生一个PipelineModel，#它是一个Transformer。
 
 
# 使用训练样本建立模型.
model = pipeline.fit(training)
 
# 构建测试数据.
test = spark.createDataFrame([
    (4, "spark i j k"),
    (5, "l m n"),
    (6, "spark hadoop spark"),
    (7, "apache hadoop")
], ["id", "text"])
 
# 调用之前训练好的PipelineModel的transform()方法，让测试数据按顺序通过拟合的工作流，生成预测结
#果
prediction = model.transform(test)
selected = prediction.select("id", "text", "probability", "prediction")
for row in selected.collect():
    rid, text, prob, prediction = row
    print("(%d, %s) --> prob=%s, prediction=%f" % (rid, text, str(prob), prediction))
#(4, spark i j k) --> prob=[0.1596407738787475,0.8403592261212525], #prediction=1.000000
#(5, l m n) --> prob=[0.8378325685476744,0.16216743145232562], prediction=0.000000
#(6, spark hadoop spark) --> prob=[0.06926633132976037,0.9307336686702395], #prediction=1.000000
#(7, apache hadoop) --> prob=[0.9821575333444218,0.01784246665557808],
#prediction=0.000000

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

各种报错的修复总结

人工智能

边缘计算

自动驾驶

spark

spark机器学习训练模型示例（一）的相关文章

AAAI 2024 一作讲者招募 | 持续报名中

点击蓝字关注我们 AI TIME欢迎每一位AI爱好者的加入我们诚挚地邀请您来AI TIME分享您发表在AAAI 2024的工作请您扫码填写以下问卷如内容合适我们将会与您沟通相关分享事宜 AAAI 2024预讲会计划时间 2024年1
【固定翼飞机】基于最优控制的固定翼飞机着陆控制器设计研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码及文章
深度好文：最全的大模型 RAG 技术概览

本文是对检索增强生成 Retrieval Augmented Generation RAG 技术和算法的全面研究对各种方法进行了系统性的梳理涉及了 RAG 流程中的数据拆分向量化查询重写查询路由等等在做 RAG 的小伙伴一定知道
比尔盖茨与萨姆.奥尔特曼的对话及感想

谈话内容比尔盖茨嘿萨姆萨姆奥尔特曼嘿比尔比尔盖茨你好吗萨姆奥尔特曼哦天哪这真的太疯狂了我还好这是一个非常激动人心的时期比尔盖茨团队情况怎么样萨姆奥尔特曼我想你知道很多人都注意到了这样一个事实
用通俗易懂的方式讲解：图解 Transformer 架构

文章目录用通俗易懂方式讲解系列 1 导语 2 正文开始现在我们开始编码从宏观视角看自注意力机制从微观视角看自注意力机制通过矩阵运算实现自注意力机制
用通俗易懂的方式讲解：如何用大语言模型构建一个知识问答系统

传统搜索系统基于关键字匹配在面向游戏攻略技术图谱知识库等业务场景时缺少对用户问题理解和答案二次处理能力本文探索使用大语言模型 Large Language Model LLM 通过其对自然语言理解和生成的能力揣摩用户意图并对
【EI复现】基于深度强化学习的微能源网能量管理与优化策略研究（Python代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 2 1 有无策略奖励 2 2 训练结果1
【多源数据融合】基于Dempster-Shafer理论的信念对数相似度测量及其在多源数据融合中的应用（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码实现
socket网络编程几大模型？看看CHAT是如何回复的？

CHAT回复网络编程中常见的有以下几种模型 1 阻塞I O模型 Blocking I O 传统的同步I O模型一次只处理一个请求 2 非阻塞I O模型 Non blocking I O 应用程序轮询调用socket相关函数检查请求不需
基于java的ssh医院在线挂号系统设计与实现

基于java的ssh医院在线挂号系统设计与实现 I 引言 A 研究背景和动机基于Java的SSH医院在线挂号系统设计与实现的研究背景和动机随着信息技术的迅速发展和应用医院在线挂号系统已成为医院管理的重要组成部分传统的挂号方式存在许多
利用CHAT上传文件的操作

问CHAT autox js ui 上传框 CHAT回复上传文件的操作如果是在应用界面中的话由于Android对于文件权限的限制你可能不能直接模拟点击选择文件一般来说有两种常见的解决方案一种是使用intent来模拟发送一个文件路径
扬帆证券：三只松鼠去年扣非净利预增超1.4倍

在高端性价比战略驱动下三只松鼠 300783 重拾增势 1月15日晚间三只松鼠发布成绩预告预计2023年度净赢利为2亿元至2 2亿元同比增加54 97 至70 47 扣非后净赢利为1亿元至1 1亿元同比增速达146 9 至17
打造完美人像，PixCake像素蛋糕助您一键修图

您是否曾经为自己的人像照片需要进行繁琐的修图而感到困扰是否曾经想要打造出完美的自拍照却不知道该如何下手现在我们为您推荐一款强大的人像处理技术修图软件 PixCake像素蛋糕 PixCake像素蛋糕是一款基于AI人像处理技术的修图软件
活动日程&直播预约｜智谱AI技术开放日 Zhipu DevDay

点击蓝字关注我们 AI TIME欢迎每一位AI爱好者的加入直播预约通道关于AI TIME AI TIME源起于2019年旨在发扬科学思辨精神邀请各界人士对人工智能理论算法和场景应用的本质问题进行探索加强思想碰撞链接全球AI学
机器学习算法实战案例：时间序列数据最全的预处理方法总结

文章目录 1 缺失值处理 1 1 统计缺失值 1 2 删除缺失值 1 3 指定值填充 1 4 均值中位数众数填充
2023最新pytorch安装（超详细版）

前言一判断是否有Nvidia 英伟达显卡二 CPU版 2 1 安装Anaconda 2 2 创建虚拟环境 2 3安装pytorch 2 4 验证pytorch是否安装成功三 GPU版 3 1 安装Anaconda 3 2 创建虚拟环
不要再苦苦寻觅了！AI 大模型面试指南（含答案）的最全总结来了！

AI 大模型技术经过2023年的狂飙 2024年必将迎来应用的落地对 IT 同学来讲这里蕴含着大量的技术机会越来越多的企业开始招聘 AI 大模型岗位本文梳理了 AI 大模型开发技术的面试之道从 AI 大模型基础面 AI 大模型进阶
【固定翼飞机】基于最优控制的固定翼飞机着陆控制器设计研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码及文章
蒙特卡洛在发电系统中的应用（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码实现
国产化率100%，北斗导航单日定位4500亿次，外媒：GPS将被淘汰

追赶30年的技术差距国产卫星导航系统北斗开始扬眉吐气数据显示北斗导航目前单日定位量达4500亿次已经获得100多个国家的合作意向甚至国际民航也摒弃以往独宠 GPS的惯例将北斗纳入参考标准对此有媒体直言 GPS多年来的技

随机推荐

django ajax做评论用的哪个库,Django Ajax评论系统

我想用Ajax创建一个评论系统我的主要目的是在不刷新页面的情况下获得新的评论我在我的HTML文件中添加了一些js代码但是没有用我的错误在哪里我该怎么做在视图 py def post detail request pk post
socket实验——stmp简单邮件代理

Q A 1 email应用的组成邮件客户端邮件服务器 SMTP协议 2 为什么email要使用客户端服务器的结构而不是直接在用户间建立连接想象自己不在线和对方不在线的情况 3 SMTP协议简单邮件传输协议传输层协议 TCP 端口
mui ajax 懒加载,MUI懒加载 - 前端小谢的个人空间 - OSCHINA - 中文开源技术交流社区...

在各种列表中有些需要大量的图片在这些列表结构中使用懒加载可以很快提高加载速度我们需要引入mui lazyload js和mui lazyload img js两个文件还有占位图懒加载 window page fk fn getDo
windows环境下部署以太坊私有链

1 部署环境 1 Windows操作系统 window10 X64 2 以太坊客户端 geth windows amd64 1 8 3 329ac18e exe 3 以太坊钱包 Ethereum Wallet win64 0 9 3 zip
《C++ Primer》13.1.2节练习

练习13 6 拷贝赋值运算符本身是一个重载的赋值运算符定义为类的成员函数左侧运算对象绑定到隐含的this参数而右侧运算对象是所属类类型的作为函数的参数函数返回指向其左侧运算对象的引用当对类对象进行赋值时会使用拷贝赋值运算符通
网络端口详解

0端口无效端口通常用于分析操作系统 1端口传输控制协议端口服务多路开关选择器 2端口管理实用程序 3端口压缩进程 5端口远程作业登录 7端口回显 9端口丢弃 11端口在线用户 13端口时间 17端口每日引用 18端口
C#中GDI绘制高质量平滑图形实例

protected override void OnPaint PaintEventArgs e try Graphics g e Graphics 获取绘制对象设置参数 g SmoothingMode System Drawing Dr
k8s部署nginx实例、iptables开放端口

1 运行nginx实例 kubectl run nginx image nginx replicas 2 port 80 2 查看pod root localhost kubectl get pods NAME READY STATUS R
【计算机毕业选题】2023~2024计算机毕业设计选题篇-选题推荐

学弟学妹们大家好这里是JAVA编码选手的博客空间一年一度的计算机专业毕业设计又要开始了大四的你们准备好选题了吗先介绍一下自己本人软件工程毕业 5年软件开发经验计算机程序设计 java程序 Java代做微服务SSM Java管
linux删除大量文件时，报错 argument list too long

linux删除大量文件时报错 argument list too long 原因删除数据量太大解决办法 1 删除某个文件夹下所有文件 cd 到需要删除的文件夹内删除所有文件 ls xargs rm r 执行完后可能有些文件删除不
COMP 9417 T2_2021 Lesson 8

贝叶斯 numeric attributes 决策树优点某种形式的树可能仍然是最流行的data mining 易于理解易于实施易于使用可以分类可以回归可用于大数据的处理例子例子在N中需要多少个M来分类 N个特征 thres
MeshLab相关&纹理贴图

安装MeshLab sudo apt get install meshlab 操作旋转视图鼠标左键拖动缩放视图滑动鼠标滚轮 shift 左键平移视图鼠标滚轮按钮拖动指定旋转轨迹球中心鼠标左键双击模型特定点改变界面左下
python爬虫什么意思-终于知道python爬虫是什么意思

爬虫过程中也会经历一些绝望啊比如被网站封IP 比如各种奇怪的验证码 userAgent访问限制各种动态加载等等下面是小编为您整理的关于python爬虫是什么意思希望对你有所帮助 python爬虫是什么意思 python爬虫即网络爬虫
ndarray对象——创建

首先需要创建数组才能对其进行运算和操作可以通过arrray 函数传递Python的序列对象来创建数组如果传递的是多层嵌套的序列将创建多维数组下例变量中的c import numpy as np a np array 1 2 3 4
信用卡评分模型（R语言）

信用卡评分 2016年1月10日一数据准备 1 问题的准备目标要完成一个评分卡通过预测某人在未来两年内将会经历财务危机的可能性来提高信用评分的效果帮助贷款人做出最好的决策背景银行在市场经济中起到至关重要的作用他们决定谁在什
1.业务架构·应用架构·数据架构实战 --- 架构实践全景图

第1章架构实践全景图 1 1 战略 BA DA AA TA五者的关系业务架构是跨系统的业务架构蓝图应用架构数据架构技术架构是解决方案的不同方面 BA Business Architecture 业务架构 DA Data Archi
计算机网络-应用层协议3（SMTP、POP3、IMAP）

1 SMTP 简单邮件传输协议 1 1 SMTP的基本操作假设Alice想给Bob发送一封简单的ASCII报文 Alice调用她的邮件代理程序并提供Bob的邮件地址 bob someschool edu 撰写报文然后指示用户代理发送该报
【2022版】Golang面试题目全网超全超详细的口语化解答总结

2022版 Golang面试题目全网超全总结 1 特性篇 1 1 Golang 使用什么数据类型 1 2 字符串的小问题 1 3 数组定义问题 1 4 内存四区 1 5 Go 支持什么形式的类型转换 1 6 空结构体的作用 1 7 单引号
完全理解图(上)——图的概念、存储及遍历

术语图由结点的有穷集合V和边的集合E组成在图中结点常被称为顶点若两个顶点之间存在一条边则表示两个顶点相邻有向图图的每条边都有方向无向图图的每条边没有方向弧有向图中常将边称为弧含箭头的一端称为弧头另一端称为弧尾
spark机器学习训练模型示例（一）

利用逻辑回归建立模型建立训练集和测试集 from pyspark ml import Pipeline from pyspark ml classification import LogisticRegression from pyspa

spark机器学习训练模型示例（一）

利用逻辑回归建立模型，建立训练集和测试集

spark机器学习训练模型示例（一） 的相关文章

随机推荐

热门标签

spark机器学习训练模型示例（一）的相关文章