分类算法的R语言实现案例

2023-11-15

最近在读《R语言与网站分析》,书中对分类、聚类算法的讲解通俗易懂,和数据挖掘理论一起看的话,有很好的参照效果。

然而,这么好的讲解,作者居然没提供对应的数据集。手痒之余,我自己动手整理了一个可用于分类算法的数据集(下载链接:csdn下载频道搜索“R语言与网站分析:数据集样例及分类算法实现”),并用R语言实现了朴素贝叶斯、SVM和人工神经网络分类。

数据集记录的是泰坦尼克号乘客的存活情况。数据集包括乘客的等级(class)、年龄(age)、性别(sex)和存活情况(survive),最终希望通过分析乘客的等级、年龄和性别建立模型,对乘客是否能够存活进行分类。

以下是使用read.table()函数读取的数据集情况,可以看到class的3/4分位数和最大值、age的最小值和1/4分位数以及sex的1/4分位数和中位值分别相等,判断数据集可能已经离散化。

> data <- read.table("./titanic_s.txt", header = TRUE, sep = ",")
> summary(data)
     class                 age                 sex                survive       
 Min.   :-1.8700000   Min.   :-0.228000   Min.   :-1.9200000   Min.   :-1.0000  
 1st Qu.:-0.9230000   1st Qu.:-0.228000   1st Qu.: 0.5210000   1st Qu.:-1.0000  
 Median : 0.0214000   Median :-0.228000   Median : 0.5210000   Median :-1.0000  
 Mean   :-0.0007595   Mean   : 0.000202   Mean   :-0.0002494   Mean   :-0.3539  
 3rd Qu.: 0.9650000   3rd Qu.:-0.228000   3rd Qu.: 0.5210000   3rd Qu.: 1.0000  
 Max.   : 0.9650000   Max.   : 4.380000   Max.   : 0.5210000   Max.   : 1.0000 


将数据全部转换为因子类型。可以看到经过转换后,class有四类(贵族、高、中、低)、age有两类(孩子和成人)、sex有两类(男和女)、survive有两类(存活和未存活)。

> data$class <- as.factor(data$class)
> data$age <- as.factor(data$age)
> data$sex <- as.factor(data$sex)
> data$survive <- as.factor(data$survive)
> summary(data)
    class         age          sex       survive  
 -1.87 :325   -0.228:2092   -1.92: 470   -1:1490  
 -0.923:285   4.38  : 109   0.521:1731   1 : 711  
 0.0214:706                                       
 0.965 :885


 
使用table()函数可查看未存活和存活人数分别为1490人、711人,二者数据量相差较大;如果用这样的数据集建模,可能影响分类结果。 

> table(data$survive)

  -1    1 
1490  711


 

为此,对数据量较少的存活人员样本进行重抽样,使得二者的样本数量一致。

> balance <- function(data,yval) {
+   y.vector <- with(data,get(yval))
+   index.0 <- which(y.vector==-1)
+   index.1 <- which(y.vector==1)
+   index.1 <- sample(index.1, length(index.0), replace = TRUE)
+   result <- data[sample(c(index.0,index.1)),]
+   result
+ }
> 
> sdata <- balance(data, "survive")
> table(sdata$survive)

  -1    1 
1490 1490


将重抽样后的数据分为训练数据集和样本数据集,比例默认按7:3分配。

> apart.data <- function(data, percent = 0.7) {
+   train.index <- sample(c(1:nrow(data)),round(percent*nrow(data)))
+   data.train <- data[train.index,]
+   data.test <- data[-c(train.index),]
+   result <- list(train = data.train, test = data.test)
+   result
+ }
> p.data <- apart.data(sdata)
> data.train <- p.data$train
> data.test <- p.data$test

数据准备妥当后,可以开始采用不同的分类算法构建模型,并使用测试数据集对模型的分类效果进行评估。要构建的模型是关于存活情况survive与class、age以及sex之间的关系,可用如下公式表示。

> mod.formula <- as.formula("survive~class+age+sex")</span>

分类算法1:朴素贝叶斯分类,注意要加载e1071库。应用测试数据集对效果进行评估,结果真正率tpr(也就是“预测活着也真活着的人数”/“实际活着的人数”)为57%,真负率tnr(也就是“预测没活也真没活的人数”/“实际没活的人数”)84%。看来预测“没活”的情况比较准。

> install.packages("e1071")
> library(e1071)
> nb.sol <- naiveBayes(mod.formula, data.train);nb.sol
> nb.predict <- predict(nb.sol, newdata = data.test)
> tb <- table(nb.predict, data.test$survive)
> tpr <- tb[2,2]/(tb[2,2]+tb[1,2]);tpr
[1] 0.5735608
> tnr <- tb[1,1]/(tb[1,1]+tb[2,1]);tnr
[1] 0.8447059

分类算法2:支持向量机(SVM)分类。应用测试数据集对效果进行评估,结果也是真正率tpr较低,真负率tnr较高。

> svm.sol <- svm(mod.formula, data.train);svm.sol
> svm.predict <- predict(svm.sol, data.test)
> tb <- table(svm.predict, data.test$survive)
> tpr <- tb[2,2]/(tb[2,2]+tb[1,2]);tpr
[1] 0.5095949
> tnr <- tb[1,1]/(tb[1,1]+tb[2,1]);tnr
[1] 0.9152941


分类算法3:人工神经网络(ANN)分类,注意加载nnet包。应用测试数据集对效果进行评估,结果也是真正率tpr较低,真负率tnr较高。

> library(nnet)
> nnet.sol <- nnet(mod.formula, data.train, size =7, maxit = 1000);nnet.sol
> pred.prob <- predict(nnet.sol, data.test)
> pred.class <- ifelse(pred.prob>0.5, 1,0)
> table(pred.class, data.test$survive)
> tb <- table(pred.class, data.test$survive)
> tpr <- tb[2,2]/(tb[2,2]+tb[1,2]);tpr
[1] 0.5095949
> tnr <- tb[1,1]/(tb[1,1]+tb[2,1]);tnr
[1] 0.9152941

通过对具体的数据集进行数据的重抽样、划分训练数据集和测试数据集,以及最终实施相应的分类算法,可以加深对于R语言分类分析过程和方法的理解。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

分类算法的R语言实现案例 的相关文章

  • 中序线索化二叉树及遍历

    中序线索化二叉树及遍历 函数接口定义 void InThreading BiThrTree p 以结点P为根的子树中序线索化 void InOrderTraverse Thr BiThrTree T 中序遍历二叉线索树T的非递归算法 对每个

随机推荐

  • 科目1基础知识快速入门精简

    科目1 4 科目一 又称科目一理论考试 驾驶员理论考试 学习道路交通安全法律 法规和相关知识学习 考试内容包括驾车理论基础 道路安全法律法规 地方性法规等相关知识 再加地方性法规 考试形式为上机考试 100道题 90分及以上过关 科目二 又
  • linux文件编程(1)—— open、write、read、lseek、阻塞问题(ps文件操作/文件描述符/重定向原理/缓冲区/标准错误)

    参考 linux文件编程 1 常用API之open write read lseek 作者 丶PURSUING 发布时间 2021 04 08 22 19 28 网址 https blog csdn net weixin 44742824
  • SpringBoot通过QRCode生成二维码

    一 添加依赖
  • vue实现多页面应用开发,包含项目之间跳转

    需求 在一个vue项目工程下 需要部署两个项目甚至多个项目 实现思路 第一步 在vue config js文件中配置两个项目的入口 module exports pages index页面是必须的 作为主项目的入口页面 index entr
  • YARN的产生背景和架构剖析

    hadoop1存在的问题 1 单点故障 可靠性低 JobTracker采用了master slave结构 是集群事务的集中处理点 存在单点故障 2 单点瓶颈 扩展性差 需要完成的任务太多 JobTracker兼顾资源管理和作业控制跟踪功能跟
  • 基于计算机视觉的米粒计数检测——Matlab源码实现

    基于计算机视觉的米粒计数检测 Matlab源码实现 计数是现代生产和科研领域中的重要问题之一 在粮食收获领域 以小麦为例 正确地评估小麦产量对于农业生产和市场供应至关重要 然而 目前的计数方法多数是通过人工或半自动方式 难以快速 准确地完成
  • 小程序和网页的区别

    小程序和网页有什么区别呢 下面我们拿微信小程序来举例 运行环境 网页 在浏览器中运行 微信小程序 在微信中运行 开发环境 网页 代码编辑器 vscode 网页浏览器 chrome 微信小程序 代码编辑器 vscode 微信模拟器 微信开发者
  • mfc140.dll丢失怎样修复-由于找不到mfc140.dll无法继续执行代码的解决方法

    mfc140 dll是电脑文件中的dll文件 动态链接库文件 如果计算机中丢失了某个dll文件 可能会导致某些软件和游戏等程序无法正常启动运行 并且导致电脑系统弹窗报错 在电脑随便打开一个浏览器然后在顶部输入 dll修复程序 site 按下
  • Linux系统下安装jdk及环境配置(两种方法)

    这里介绍两种linux环境下jdk的安装以及环境配置方法 在windows系统安装jdk以及环境配置 相信大家都会 这里就不做赘述了 这里主要讲讲linux下的jdk安装以及环境配置 第一种属于傻瓜式安装 一键安装即可 yum安装 第二种手
  • 指针和引用 , 指针空值nullptr

    引用和指针 1 引用概念 引用不是新定义一个变量 而是给已存在变量取了一个别名 编译器不会为引用变量开辟内存空间 它和它引用的变量共用同一块内存空间 使用方式和普通变量相同 当原变量来对待 比如 李逵 在家称为 铁牛 江湖上人称 黑旋风 底
  • 不同岛屿的数量

    694 不同岛屿的数量 这道题要给出不同岛屿的数量 最直观的想法就是对发现的不同岛屿进行序列化 然后把序列化结果存到HashSet 那怎么序列化呢 其实比较类似于二叉树的序列化 记录遍历顺序 方向 这里用 1 2 3 4 代表上下左右 1
  • 全网最详细网络安全学习路线!手都给我码酸了!

    零基础小白 学完掌握可就业 入门到入土的网安学习路线 在各大平台搜的网安学习路线都太粗略了 看不下去了 我把自己报班的系统学习路线 整理拿出来跟大家分享了 本文为纯干货纯文字内容 需要详细学习路线图以及配套资料的同学可留言或者后台踢我免费分
  • 什么是计算机视觉

    计算机视觉 让计算机 看懂 和视频 这是什么场景 画面里都有什么 人 车和房子在什么位置 目标在做什么 目标间有什么关系 视觉是自然智能不可思议的结晶 猕猴的大脑皮层中视觉部分占据大约50 人脑中有关视觉的部分所占比重大 人类大脑对视觉进行
  • Linux下EC20实现ppp拨号

    硬件描述 EC20模块封装成标准的PCIe接口 和系统之家通讯主要通过usb通讯 系统描述 此处使用的是Linux 3 0 1 一 驱动支持 首先需要对Linux内核驱动做一定的修改 使操作系统能够支持EC20 1 Add VID add
  • Windows 无法启动MySql服务 (位于 本地计算机上)错误2: 系统找不到指定的文件

    错误 Windows 无法启动MySql服务 位于 本地计算机上 错误2 系统找不到指定的文件 错误原因 服务的路径与安装的路径不一致 之前安装过mysql后卸载重装容易出现这样的问题 解决方法 修改windows注册表 windows r
  • DC-DC升压电路

    目录 实验目的 课程条件 原理框图和实验思路 实验原理图 电路图分析
  • memcached server LRU 深入分析

    Memcached 人所皆知的remote distribute cache 不知道的可以javaeye一下下 或者google一下下 或者baidu一下下 但是鉴于baidu的排名商业味道太浓 从最近得某某事件可以看出 所以还是建议jav
  • 【Java基础】异常

    文章目录 1 基本信息 2 Throwable 体系 2 1 Exception 2 2 Error 2 3 常见的 Exception 和 Error 3 异常的处理 3 1 抛出异常throw 3 2 捕获异常try catch fin
  • OpenAI API(ChatGPT)接口地址https://api.openai.com/v1/chat网络问题无法访问Error: connect ECONNREFUSED ETIMEDOUT

    https api openai com v1 chat是openAI的API接口地址 因为长城的原因 23年年初一次更新后便无法访问 访问接口会提示Error connect ETIMEDOUT等网络相关的问题 解决办法有三种 本文只做方
  • 分类算法的R语言实现案例

    最近在读 R语言与网站分析 书中对分类 聚类算法的讲解通俗易懂 和数据挖掘理论一起看的话 有很好的参照效果 然而 这么好的讲解 作者居然没提供对应的数据集 手痒之余 我自己动手整理了一个可用于分类算法的数据集 下载链接 csdn下载频道搜索