在Kaggle手写数字数据集上使用Spark MLlib的朴素贝叶斯模型进行手写数字识别

2023-05-16

昨天我在Kaggle上下载了一份用于手写数字识别的数据集，想通过最近学习到的一些方法来训练一个模型进行手写数字识别。这些数据集是从28×28像素大小的手写数字灰度图像中得来，其中训练数据第一个元素是具体的手写数字，剩下的784个元素是手写数字灰度图像每个像素的灰度值，范围为[0,255]，测试数据则没有训练数据中的第一个元素，只包含784个灰度值。现在我打算使用Spark MLlib中提供的朴素贝叶斯算法来训练模型。

首先来设定Spark上下文的一些参数：

val conf = new SparkConf()
    .setAppName("DigitRecgonizer")
    .setMaster("local[*]")
    .set("spark.driver.memory", "10G")
val sc = new SparkContext(conf)

这样Spark上下文已经创建完毕了，那么现在来读取训练数据吧，在这里我把原本的训练数据的header去掉了，只保留了数据部，训练数据是以csv格式保存的：

val rawData = sc.textFile("file://path/train-noheader.csv")

由于数据是csv格式，所以接下来用“,”将每行数据转换成数组：

val records = rawData.map(line => line.split(","))

下面需要将这些数据处理成朴素贝叶斯能够接受的数据类型LabeledPoint ，此类型接收两个参数，第一个参数是label（标签，在这里就是具体的手写数字），第二个参数是features （特征向量，在这里是784个灰度值）：

    val records = rawData.map(line => line.split(","))
    val data = records.map{ r =>
      val label = r(0).toInt
      val features = r.slice(1, r.size).map(p => p.toDouble)
      LabeledPoint(label, Vectors.dense(features))
    }

现在已经把数据都准备好了，可以开始训练模型了，在MLlib中，只需要简单地调用train 方法就能完成模型的训练：

val nbModel = NaiveBayes.train(data)

现在已经训练出了一个模型，我们看看它在训练数据集上的准确率如何，在这里我将训练数据集的特征传给模型进行训练，将得到的结果与真实的结果进行对比，然后统计出正确的条数，以此来评估模型的准确率，这应该也算是一种交叉验证吧：

    val nbTotalCorrect = data.map { point =>
      if (nbModel.predict(point.features) == point.label) 1 else 0
    }.sum
    val numData = data.count()
    val nbAccuracy = nbTotalCorrect / numData

运行完这段代码，我得到的准确率是0.8261190476190476 。

下面开始对测试数据进行识别了，首先读入测试数据：

val unlabeledData = sc.textFile("file://path/test-noheader.csv")

再用与之前同样的方式进行预处理：

val unlabeledRecords = unlabeledData.map(line => line.split(","))
val features = unlabeledRecords.map{ r =>
  val f = r.map(p => p.toDouble)
  Vectors.dense(f)
}

注意，测试数据中没有标签，所以将它所有数值都作为特征features 。

现在开始对测试数据进行识别，并把结果保存为文件：

    val predictions = nbModel.predict(features).map(p => p.toInt)
    predictions.repartition(1).saveAsTextFile("file://path/digitRec.txt")

到这里所有工作都完成了，之后我把计算出来的结果上传到Kaggle上，发现准确率在0.83左右，与我之前在训练数据集上得到的评估结果相近。

今天就到这里吧，以后可能还会寻找其他的方式来训练模型，看看效果如何。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

在Kaggle手写数字数据集上使用Spark MLlib的朴素贝叶斯模型进行手写数字识别的相关文章

cdh下spark2-yarn运行sparkstreaming获取kafka数据使用spark-streaming-kafka-0-10_2.11报错解决

报错问题 20 07 15 17 20 51 INFO utils AppInfoParser Kafka version 0 9 0 kafka 2 0 0 20 07 15 17 20 51 INFO utils AppInfoPars
重新定义分析 - EventBridge 实时事件分析平台发布

对于日志分析大家可能并不陌生在分布式计算大数据处理和 Spark 等开源分析框架的支持下每天可以对潜在的数百万日志进行分析事件分析则和日志分析是两个完全不同的领域事件分析对实时性的要求更高需要磨平事件领域中从半结构化到结构化的消
Spark on Kubernetes 与 Spark on Yarn 不完全对比分析

前言 Apache Spark 是目前应用最广泛的大数据分析计算工具之一它擅长于批处理和实时流处理并支持机器学习人工智能自然语言处理和数据分析应用随着 Spark 越来越受欢迎使用量越来越大狭义上的 Hadoop MR 技术栈
广电用户画像分析之根据用户行为数据进行筛选与标签添加

在数据处理和分析领域我们经常需要根据用户的行为数据进行筛选和标签添加以便更好地理解用户行为和偏好在本篇博客中我们将介绍两个示例展示如何根据用户的收视行为数据和订单信息进行数据处理和分析前情提要数据集分析广电用户画像分析之探索
深入理解 SQL 中的 Grouping Sets 语句

前言 SQL 中 Group By 语句大家都很熟悉根据指定的规则对数据进行分组常常和聚合函数一起使用比如考虑有表 dealer 表中数据如下 id Int city String car model String quantity
基于Spark的电商用户行为实时分析可视化系统（Flask-SocketIO）

基于Spark的电商用户行为实时分析可视化系统 Flask SocketIO 项目简介该项目已上线蓝桥课程有需要的可凭邀请码 UB5mdLbl 学习哦有优惠课程地址 https www lanqiao cn courses 2629
Hudi和Kudu的比较

与Kudu相比 Kudu是一个支持OLTP workload的数据存储系统而Hudi的设计目标是基于Hadoop兼容的文件系统如HDFS S3等重度依赖Spark的数据处理能力来实现增量处理和丰富的查询能力 Hudi支持Increme
spark_hadoop集群搭建自动化脚本

bin bash 脚本使用说明 1 使用脚本前需要弄好服务器的基础环境 2 在hadoop的每个节点需要手动创建如下目录 data hdfs tmp 3 修改下面的配置参数 4 脚本执行完备后需要收到格式化namenode
大数据—— Flink 的优化

目录一 Flink内存优化 1 1 Flink 内存配置二配置进程参数 2 1 场景 2 2 操作步骤三解决数据倾斜 3 1 场景描述 3 2 解决方式 3 2 1 数据源的消费不均匀调整并发度 3 2 2 数据分布不均匀四
Flume之：二、企业开发案例

Flume之二企业开发案例文章目录 Flume之二企业开发案例三企业开发案例 1 监控端口数据官方案例 2 实时读取本地文件到HDFS案例 3 实时读取目录文件到HDFS案例 4 flume监控Kafka gt Spark知识
Spark 【分区与并行度】

RDD 并行度和分区 SparkConf setMaster local 我们在创建 SparkContext 对象时通常会指定 SparkConf 参数它包含了我们运行时的配置信息如果我们的 setMaster 中的参数是 local
大数据手册(Spark)--Spark基本概念

文章目录 Spark 基本概念 Hadoop 生态 Spark 生态 Spark 基本架构 Spark运行基本流程弹性分布式数据集 RDD Spark安装配置 Spark基本概念 Spark基础知识 PySpark版 Spark机器学习
sparkstreamming 消费kafka(1)

pom
变量仅在 for 循环内本地分配[重复]

这个问题在这里已经有答案了我正在做第一个 Kaggle 挑战我对这种行为感到惊讶组合由两个pd DataFrame组成一个是训练集另一个是测试集我想删除两列因此我创建了一个 for 循环来迭代组合中的项目 for datase
pandas str.lower() 不适用于数据框列

我正在使用 Kaggle 提供的泰坦尼克号数据集我将它放在数据框中我想将性别列的大小写更改为小写我正在使用以下代码 import pandas as pd df pd read csv titanic csv print dfFu
错误：“utf8”编解码器无法解码位置 0 中的字节 0x80：起始字节无效

我正在尝试执行以下操作Kaggle作业 https www kaggle com c word2vec nlp tutorial 我正在使用 gensim 包来使用 word2vec 我能够创建模型并将其存储到磁盘但是当我尝试加载文件时
Spark 中 BroadCast 导致的内存溢出(SparkFatalException)

背景本文基于 Spark 3 1 1 open jdk 1 8 0 352 目前在排查 Spark 任务的时候遇到了一个很奇怪的问题在此记录一下现象描述一个 Spark Application Driver端的内存为 5GB 一直
spark相关

提示文章写完后目录可以自动生成如何生成可参考右边的帮助文档文章目录前言一 pandas是什么二使用步骤 1 引入库 2 读入数据总结前言提示这里可以添加本文要记录的大概内容例如随着人工智能的不断发展机器学习这门
使用Python下载Kaggle数据集

我已经尝试下载kaggle dataset通过使用Python 但是我在使用时遇到了问题request方法和下载的输出 csv 文件是损坏的 html 文件 import requests The direct link to the Ka
Pandas scatter_matrix - 绘制分类变量

我正在查看 Kaggle 竞赛中著名的泰坦尼克号数据集 http www kaggle com c titanic gettingStarted data http www kaggle com c titanic gettingStart

随机推荐

go打包成linux程序

看到一个不错的的go开源项目 xff0c https github com antonmedv countdown 但是它只提供源码 xff0c 用起来不太方便我在本地搭建了一下GO的运行环境 xff0c 每次运行程序都要 go run
Can‘t open /run/atd.pid to signal atd. No atd running?

现象 echo 34 notify send 39 Stop it and go home now 39 39 Enough work for today 39 u critical 34 at now 13 27 33 warning c
转换 nvarchar 值 ‘201201013201201013201201013‘ 时溢出了整数列

现象执行 select from lx stuinfo where lx stuinfo stunu 61 202202002 报错如下 xff1a 消息 248 xff0c 级别 16 xff0c 状态 1 xff0c 第 2 行转换
RuoYi若依项目部署实战

环境 OS Amazon Linux 2 x86 64Host c5 2xlargeKernel 5 10 173 154 642 amzn2 x86 64 mysql root密码为yourpasswd 64 2023 xff0c 数据库
linux C++ hello world

我是Java程序员 xff0c 没怎么写过C 43 43 以前在windows下使用vs写过hello world 最近有个程序需要使用C 43 43 实现我想在linux下写 xff0c 记录一下过程安装gcc 查看gcc版本 gcc
mybatis foreach 批量删除传两个参数

需求 foreach中要传两个参数 xff0c 一个是id xff0c 一个是list 怎么传呢 xff1f 单list的情况 Mapper java span class token comment 批量删除 64 param teamL
ubuntu22.04 dlopen(): error loading libfuse.so.2

报错如下 navicat16 premium cs AppImage dlopen error loading libfuse so 2 AppImages require FUSE to run You might still be ab
Android DataBinding在Activity、Fragment中的使用及数据共享

本篇记录Activity Fragment使用DataBinding的不同方式 xff0c 以及Activity下的不同Fragment间的数据共享开启DataBinding 首先我们要在app gradle中开启DataBinding
IDEA mybatis Mapper.xml报红的解决办法

现象在IDEA中已经配置好Database了 xff0c 但是打开mybatis的Mapper xml中的字段还是报红如下 xff1a 随便不影响程序运行 xff0c 但是非常的不舒服智能提示也不好用解决办法 File gt Set
Windows 2008 R2 Server远程无法复制的解决办法

结束进程rdpclip exe运行中重新运行rdpclip exe 两步完美解决参考 https bbs huaweicloud com blogs 307039
WinScp密钥登录

使用密码登录非常的方便 xff0c 但是有的客户的云服务器上是限定只能通过密钥登录我一般使用命令行的scp命令就可以正常上传 xff0c 但是对于我一些同事来说 xff0c 就很不方便生成密钥这个不难 xff0c 可以参考我之前的文章
FileZilla密钥登录

使用密码登录非常的方便 xff0c 但是有的客户的云服务器上是限定只能通过密钥登录我一般使用命令行的scp命令就可以正常上传 xff0c 但是对于我一些同事来说 xff0c 就很不方便生成密钥这个不难 xff0c 可以参考我之前的文章
node js 设置淘宝源

淘宝镜像源最新地址 span class token function npm span config span class token builtin class name set span registry https registry
手推DNN，CNN池化层，卷积层反向传播

反向传播算法是神经网络中用来学习的算法 xff0c 从网络的输出一直往输出方向计算梯度来更新网络参数 xff0c 达到学习的目的 xff0c 而因为其传播方向与网络的推理方向相反 xff0c 因此成为反向传播神经网络有很多种 xff0c
软件架构概念和面向服务的架构

摘要软件架构作为软件开发过程的一个重要组成部分 xff0c 有着各种各样的方法和路线图 xff0c 它们都有一些共同的原则基于架构的方法作为控制系统构建和演化复杂性的一种手段得到了推广引言在计算机历史中 xff0c 软件变得越来越复
初识强化学习，什么是强化学习？

相信很多人都听过机器学习和深度学习但是听过强化学习的人可能没有那么多那么什么是强化学习呢强化学习是机器学习的一个子领域它可以随着时间的推移自动学习到最优的策略在我们不断变化的纷繁复杂的世界里从更广的角度来看即使是单
强化学习形式与关系

在强化学习中有这么几个术语智能体 Agent 环境 Environment 动作 Action 奖励 Reward 状态 State 有些地方称作观察 Observation 奖励 Reward 在强化学习中奖励是一个标量它是从环境中
多层网络和反向传播笔记

在我之前的博客中讲到了感知器 xff08 感知器 xff09 xff0c 它是用于线性可分模式分类的最简单的神经网络模型 xff0c 单个感知器只能表示线性的决策面 xff0c 而反向传播算法所学习的多层网络能够表示种类繁多的非线性曲面对
如何准备校招？

秋招已经落尽尾声 xff0c 今天小牛想把自己的学习经验分享给大家 xff0c 避免大家多走弯路 1 首先需要确定自己想从事哪方面的工作比如服务端开发 xff08 Java开发工程师 xff0c C 43 43 开发工程师 xff09 x
在Kaggle手写数字数据集上使用Spark MLlib的朴素贝叶斯模型进行手写数字识别

昨天我在Kaggle上下载了一份用于手写数字识别的数据集 xff0c 想通过最近学习到的一些方法来训练一个模型进行手写数字识别这些数据集是从28 28像素大小的手写数字灰度图像中得来 xff0c 其中训练数据第一个元素是具体的手写数字 x

在Kaggle手写数字数据集上使用Spark MLlib的朴素贝叶斯模型进行手写数字识别

在Kaggle手写数字数据集上使用Spark MLlib的朴素贝叶斯模型进行手写数字识别 的相关文章

随机推荐

热门标签

在Kaggle手写数字数据集上使用Spark MLlib的朴素贝叶斯模型进行手写数字识别的相关文章