贝叶斯网络python实现_朴素贝叶斯和贝叶斯网络算法及其R语言实现

2023-05-16

原标题：朴素贝叶斯和贝叶斯网络算法及其R语言实现

作者：鲁伟

一个数据科学践行者的学习日记。数据挖掘与机器学习，R与Python，理论与实践并行。个人公众号：数据科学家养成记 (微信ID：louwill12)

最近在硬怼data mining，总算把几个月前说好的正面刚算法的计划给开了个头。毕竟在小编的计划中将来是打算偏机器学习的，不懂算法实现肯定是转型无望了。既然小编是做贝叶斯方向的，所以数据挖掘算法这块就先从贝叶斯分类器开始，原本以为花不了多少时间，可这两年终归是离扎实的数学计算训练太远了，就算是正面刚也刚了不少时间。这篇文章主要给大家介绍一下贝叶斯分类器中两个重要的算法：朴素贝叶斯和贝叶斯网络，最后把它们在R语言中简单的实现一下。

小编最近在怼的data mining：

⊙ 朴素贝叶斯分类器及R实现

⊙ 贝叶斯网络及R实现

⊙ 朴素贝叶斯与贝叶斯网络的区别

朴素贝叶斯分类器

朴素贝叶斯分类是一种相对简单的分类算法，称它为朴素贝叶斯分类并不是它有多朴素，而是其背后的的思想方法很朴素，它假设了数据集中的所有特征是同等重要且是条件独立的。朴素贝叶斯的思想基础如下：对于给出的待分类项，求解在此项出现的条件下各个类别出现的概率，哪个最大，就认为此待分类项属于哪个类别。就好比我问你一NBA球员单场抢下30个篮板球你猜这球员是打什么位置的，你十有八九猜中锋。为什么呢？因为中锋球员一般呆在内线，个子较高抢到很多篮板球的概率比较大，当然人家也有可能是名大前锋，但在没有其它可用信息下，我们会选择条件概率最大的类别，这就是朴素贝叶斯的思想基础。

朴素贝叶斯的分类过程如图所示，图片来自：

http://www.cnblogs.com/leoo2sk/archive/2010/09/17/naive-bayesian-classifier.html

从图中可以看到，贝叶斯分类器可以分为三个阶段：准备工作阶段、分类训练阶段和应用阶段。

准备工作阶段的任务是为朴素贝叶斯分类做必要的准备，主要工作是根据具体情况确定特征属性，并对每个特征属性进行适当划分，然后由人工对一部分待分类项进行分类，形成训练样本集合。这一阶段的输入是所有待分类数据，输出是特征属性和训练样本。

分类训练阶段的任务是生成分类器，计算每个类别在训练样本中的出现频率及每个特征属性划分对每个类别的条件概率估计，在这里类条件概率的计算是至关重要的。其输入是特征属性和训练样本，输出是分类器。(公式不好打，就不放公式了)。

应用阶段就完全交给程序来跑啦，将上面训练好的分类器用R或者Python来实现。

下面来看看朴素贝叶斯简单的在R语言中的实现。

R语言中e1071包和klaR包中的NaiveBayes函数都可以实现朴素贝叶斯分类。本文使用e1071包中分类函数作为例子。数据集使用mlbench包中的HouseVotes84，这是一个关于众议院9种不同票型的数据集。

先简单看下它的数据结构：

使用naiveBayes( )函数进行朴素贝叶斯建模：

model

Naive Bayes Classifier for Discrete Predictors

Call:

naiveBayes.default(x = X, y = Y, laplace = laplace)

A-priori probabilities:(类先验概率)

democrat republican

0.6137931 0.3862069

Conditional probabilities:(V1-V16的类条件概率)

Y n y

democrat 0.3953488 0.6046512

republican 0.8121212 0.1878788

(V2-V16类条件概率省略)

#进行分类预测

predict(model,HouseVotes84[1:10,],type="raw")

democrat republican

[1,] 1.029209e-07 9.999999e-01

[2,] 5.820415e-08 9.999999e-01

[3,] 5.684937e-03 9.943151e-01

[4,] 9.985798e-01 1.420152e-03

[5,] 9.666720e-01 3.332802e-02

[6,] 8.121430e-01 1.878570e-01

[7,] 1.751512e-04 9.998248e-01

[8,] 8.300100e-06 9.999917e-01

[9,] 8.277705e-08 9.999999e-01

[10,] 1.000000e+00 5.029425e-11

由上面的预测概率表可知，前10个记录的预测分类为

[1] republican republican republican democrat democrat democrat [7] republican republican republican democrat

贝叶斯网络及R实现

贝叶斯网络(BNN)基本概念有两个：

一个有向无环图(Directed Acyclic Graph)和一个条件概率表集合。

DAG：DAG的结点V包括随机变量(类别和特征)，有向连接E(A->B)表示结点A是结点B的parent，且B与A是有依赖关系的(不独立)。条件概率表集合：同时引入了一个条件性独立(conditional independence)概念，即图中任意结点v在给定v的parent结点的情况下，与图中其它结点都是独立的，也就是说P(v|par(v),x1,x2...,xn) = P(v|par(v))。这里par(v)表示v的parent结点集，x1,x2,...,xn表示图中其它结点。

贝叶斯网络的建模一般包括两个步骤：

(1)创建网络结构；(2)估计每一个结点的概率表中的概率值。网络拓扑结构可以通过程序算法来获得。一旦找到合适的拓扑结构，与各结点关联的概率表就确定了。对这些概率的估计与朴素贝叶斯分类器中的方法类似。

在R语言中可以用bnlearn包来对贝叶斯网络进行建模。但要注意的是bnlearn包不能处理混合数据，所以先将连续数据进行离散化(因子型)，然后再进行建模训练。bnlearn包包括结构学习、参数学习和推理三个主要功能，具体如下图。

本例中使用mlbench包中的关于糖尿病诊断的PimaIndiansDiabetes2数据集，鉴于数据集中存在较多的缺失值，在进行贝叶斯网络建模前，我们采用装袋法对缺失值进行填补：

#加载扩展包和数据

library(caret)

data(PimaIndiansDiabetes2,package="mlbench")

#装袋法对缺失值插补

preproc

data

data$Class

然后对填补后的数据集进行训练：

#贝叶斯网络建模

library(bnlearn)

#数据离散化

data2

data2$class

#爬山算法学习结构

bayesnet

#显示网络图

plot(bayesnet)

#修改网络图中的箭头指向

bayesnet

plot(bayesnet)

拓扑结构如图：

然后利用bn.fit( )函数进行参数学习：

#参数学习

fitted

#训练样本预测并提取混淆矩阵

pre

#进行条件推断

cpquery(fitted,(class=="pos"),(age=="(36,81]"&mass=="(34.8,67.1]"))

[1] 0.5934619

由条件推断结果可知在年龄为36~81岁之间以及mass为34.8~67.1区间的得糖尿病的概率为0.5934619。

朴素贝叶斯与贝叶斯网络的区别

不想写了，一图流：

总结

贝叶斯分类器是一种根据属性集和类变量的概率关系进行建模的方法。其中根据类条件概率的估计我们有两种贝叶斯分类器的实现方式：朴素贝叶斯和贝叶斯网络，本文对两种贝叶斯分类方法进行了简单的介绍，并实现了这两种方法在R语言中的简单应用。之后小编会继续分享自己的算法学习与程序实现的笔记推送，敬请期待哈~

文末放一张昨晚小编做贝叶斯分类题的草稿哈哈哈：

公众号后台回复关键字即可学习

回复 RR语言快速入门免费视频

回复统计统计方法及其在R中的实现

回复用户画像民生银行客户画像搭建与应用

回复大数据大数据系列免费视频教程

回复可视化利用R语言做数据可视化

回复数据挖掘数据挖掘算法原理解释与应用

回复机器学习R&Python机器学习入门返回搜狐，查看更多

责任编辑：

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

贝叶斯网络python实现_朴素贝叶斯和贝叶斯网络算法及其R语言实现的相关文章

下载 PyQt6 的 Qt Designer 并使用 pyuic6 将 .ui 文件转换为 .py 文件

如何下载 PyQt6 的 QtDesigner 如果没有适用于 PyQt6 的 QtDesigner 我也可以使用 PyQt5 的 QtDesigner 但是如何将此 ui 文件转换为使用 PyQt6 库而不是 PyQt5 的 py 文件
Python、Tkinter、更改标签颜色

有没有一种简单的方法来更改按钮中文本的颜色 I use button text input text here 更改按下后按钮文本的内容是否存在类似的颜色变化 button color red Use the foreground设置按钮
如何生成给定范围内的回文数列表？

假设范围是 1 X 120 这是我尝试过的 gt gt gt def isPalindrome s check if a number is a Palindrome s str s return s s 1 gt gt gt def ge
如何收集列表、字典等中重复计算的结果（或制作修改每个元素的列表的副本）？

There are a great many existing Q A on Stack Overflow on this general theme but they are all either poor quality typical
如何在android上的python kivy中关闭应用程序后使服务继续工作

我希望我的服务在关闭应用程序后继续工作但我做不到我听说我应该使用startForeground 但如何在Python中做到这一点呢应用程序代码 from kivy app import App from kivy uix floatl
如何打印没有类型的defaultdict变量？

在下面的代码中 from collections import defaultdict confusion proba dict defaultdict float for i in xrange 10 confusion proba di
打破嵌套循环[重复]

这个问题在这里已经有答案了有没有比抛出异常更简单的方法来打破嵌套循环在Perl https en wikipedia org wiki Perl 您可以为每个循环指定标签并且至少继续一个外循环 for x in range 10 fo
运行多个 scrapy 蜘蛛的正确方法

我只是尝试使用在同一进程中运行多个蜘蛛新的 scrapy 文档 http doc scrapy org en 1 0 topics practices html但我得到 AttributeError CrawlerProcess objec
feedparser 在脚本运行期间失败，但无法在交互式 python 控制台中重现

当我运行 eclipse 或在 iPython 中运行脚本时它失败了 ascii codec can t decode byte 0xe2 in position 32 ordinal not in range 128 我不知道为什么但
python pandas 中的双端队列

我正在使用Python的deque 实现一个简单的循环缓冲区 from collections import deque import numpy as np test sequence np array range 100 2 resha
在pyyaml中表示具有相同基类的不同类的实例

我有一些单元测试集希望将每个测试运行的结果存储为 YAML 文件以供进一步分析 YAML 格式的转储数据在几个方面满足我的需求但测试属于不同的套装结果有不同的父类这是我所拥有的示例 gt gt gt rz shorthand for
python 集合可以包含的值的数量是否有限制？

我正在尝试使用 python 设置作为 mysql 表中 ids 的过滤器 python集存储了所有要过滤的id 现在大约有30000个这个数字会随着时间的推移慢慢增长我担心python集的最大容量它可以包含的元素数量有限制吗您最大
当玩家触摸屏幕一侧时，如何让 pygame 发出警告？

我使用 pygame 创建了一个游戏当玩家触摸屏幕一侧时我想让 pygame 给出类似你不能触摸屏幕两侧的错误我尝试在互联网上搜索但没有找到任何好的结果我想过在屏幕外添加一个方块当玩家触摸该方块时它会发出警告但这花了很长
Python：尝试检查有效的电话号码

我正在尝试编写一个接受以下格式的电话号码的程序XXX XXX XXXX并将条目中的任何字母翻译为其相应的数字现在我有了这个如果启动不正确它将允许您重新输入正确的数字然后它会翻译输入的原始数字我该如何解决 def main phon
如何将 PIL 图像转换为 NumPy 数组？

如何转换 PILImage来回转换为 NumPy 数组这样我就可以比 PIL 进行更快的像素级转换PixelAccess允许我可以通过以下方式将其转换为 NumPy 数组 pic Image open foo jpg pix numpy
在Python中重置生成器对象

我有一个由多个yield 返回的生成器对象准备调用该生成器是相当耗时的操作这就是为什么我想多次重复使用生成器 y FunctionWithYield for x in y print x here must be something t
检查所有值是否作为字典中的键存在

我有一个值列表和一本字典我想确保列表中的每个值都作为字典中的键存在目前我正在使用两组来确定字典中是否存在任何值 unmapped set foo set bar keys 有没有更Pythonic的方法来测试这个感觉有点像黑客您的方
如何从没有结尾的管道中读取 python 中的 stdin

当管道来自打开时不知道正确的名称我无法从 python 中的标准输入或管道读取数据文件我有作为例子管道测试 py import sys import time k 0 try for line in sys stdin k k
Python：元类属性有时会覆盖类属性？

下面代码的结果让我感到困惑 class MyClass type property def a self return 1 class MyObject object metaclass MyClass a 2 print MyObject
PyAudio ErrNo 输入溢出 -9981

我遇到了与用户相同的错误 Python 使用 Pyaudio 以 16000Hz 录制音频时出错 https stackoverflow com questions 12994981 python error audio recording

随机推荐

java安装步骤_Visual Studio Code (vscode) 配置 Java 环境

主要步骤 xff1a 下载安装配置java 配置java Path vscode 安装插件具体操作 xff1a 1 下载安装配置java 这一步骤可看 xff1a 下载安装Java 2 vscode 安装插件 2 1 安装插件点击扩展
【最新】windows电脑FFmpeg安装教程手把手详解

最新 FFmpeg安装教程手把手详解写在前面一下载 amp 解压二配置环境变量1 配置系统环境变量额外补充写在前面本文以 Windows 64 位操作系统为例演示一下载 amp 解压打开 FFmpeg 官网 xff0c 选
openssh升级_WSL 升级 Debian 到 10 (Buster）

前两天 Debian 10 发布了 xff0c 我把家里几台硬件都升级成了 Debian 10 xff0c 感觉十分清爽 xff0c 那么作为每天重度使用的 WSL 怎么能还停留在 9 上呢 xff1f WSL 里面编译个程序拷贝到 Deb
17个好用免费的ftp软件工具推荐，支持中文

17个好用免费的ftp软件工具推荐 xff0c 支持中文版 ftp软件有很多 xff0c 支持中文版的免费ftp软件也有很多 1 重点推荐 xff1a FTP客户端 IIs7服务器管理工具 xff08 官网 xff1a http fwqgl
如何快速批量创建文本文档？

在要创建文档的文件夹里新建一个文本文档打开该文档 xff0c 把下面的命令复制粘贴进去命令 xff1a 64 echo off for L x in 1 1 10 do 64 echo x gt x txt 按下ctrl 43 S键保存
rust图形编程_关于 Rust 目前能用的一些 GUI 库

写这篇文章的目的是为了不用每次群里有人问 GUI 都需要把各种库的地址都复制一遍不过这篇文章也很难把各个库都收集的那么全 xff0c 而且一些库还在改动 xff0c 而且慢慢还会有新增的库出来首先我们看一下 Gtk 43 的 Rust
conda 安装本地包_本地安装DEB包的3种命令行工具(适合Debian体系)

请关注本头条号 xff0c 每天坚持更新原创干货技术文章如需学习视频 xff0c 请在微信搜索公众号智传网优直接开始自助视频学习 1 前言在本教程中 xff0c 我们将学习如何使用三种不同的命令行工具 dpkg apt和gdebi
Java比较两个List之间差异(基于业务场景)

本文实现了比较两个List之间的差异 xff0c 包括获取两List的差集 xff0c 交集 xff0c 并集不去重 xff09 和并集 xff08 去重的API解法和优化解法的解决方案 xff0c 并根据实际业务场景实现业务需求本
vivo手机怎么投屏到电脑_怎么使用投屏工具将华为手机投屏在电脑上

现在很多电视手机都是智能的了 xff0c 许多功能都能实现 xff0c 比如说投屏的功能 xff0c 手机投屏电脑手机投屏电视等等 xff0c 只要你是智能的手机电视电脑 xff0c 就都可以实现投屏功能第一种方法 xff1a 手
python智力问答游戏_Python语言编写智力问答小游戏功能

本篇博文将使用Python代码语言简单编写一个轻松益智的小游戏 xff0c 效果如下所示 xff1a 1 设计思路本项目使用SQLite建立问答题库 xff0c 每道题包括4个选项答案 3个正确答案 xff0c 1个错误答案每道题都有一
windows 远程连接debian_通过windows远程访问linux桌面的方法（简单）

hadoop 64 master sudo yum y install xrdp Loaded plugins fastestmirror langpacks Loading mirror speedsfromcached hostfile
AtCoder Regular Contest 096 E - Everything on It 容斥+第二类斯特林数

题意给你一个n xff0c 一共有2 n种组合 xff0c 你要选择一些组合 xff0c 使得每个数都出现至少两次 xff0c 答案模m xff0c m是一个质数 xff0c n lt 61 5000 分析这道题是计数题 xff0c 很
[已成功]在mac上安装FFmpeg，详细全过程

记录一次痛苦的在mac上安装ffmpeg的过程前言在 mac 上下载安装ffmpeg的试探之路1 从官方网站下载FFmpeg软件包2 选择用于macOS 64位的静态构建这将使你重定向到evermeet cx网站 3 通过 Homebr
python100个常用语句,Python常用语句

Python常用语句判断语句 if语句 age 61 30 print 34 if判断开始 34 if age gt 61 18 print 34 成年 34 print 34 if判断结束 34 age 61 15 print 34 i
python实例化对象是什么意思_python面向对象---类的定义与实例化

python面向对象类的定义与实例化 python是一种面向对象编程语言 xff0c 自然也有类的概念 python中的类通过class 关键字定义 xff0c 提供了面向对象的所有标准特性 xff0c 例如允许一个类继承多个基类 xff
python和接码平台对接_python验证码识别接口及识别思路代码

import os import pytesseract from PIL import Image from collections import defaultdict tesseract exe所在的文件路径 pytesseract
pytorch cpu版本安装_小白学pytorch 01-安装C++/Python版本pytorch

这些日子 xff0c 借着新版本 opencv4 0库 xff0c 把以往工程学的图像处理知识都温习一遍 xff1b 然后花了2个月左右写了一个可视化算法平台 xff0c 将大部分的算法 xff0c 都集成到了平台里面最近决定好好整理
tableau如何按条件累加_数据潜力|这~~么多Tableau图表类型，哪个适合我？！？（3）...

Morning 今天是tableau图表类型认领系列最后一期啦离集齐只差3分钟前2篇复习路径如下 xff1a 数据潜力这么多Tableau图表类型 xff0c 哪个适合我 xff1f xff01 xff1f 1 数据潜力这么多T
SQL 取空格右边的字符_SQL注入绕过与防御(Web漏洞及防御)

SQL注入绕过大小写绕过根据应用程序的过滤规则 xff0c 通常会对恶意关键字设置黑名单 xff0c 如果存在恶意关键字 xff0c 应用程序就会退出运行但在过滤规则中可能存在过滤不完整或只过滤小写或大小的情况 xff0c 没有针对大
贝叶斯网络python实现_朴素贝叶斯和贝叶斯网络算法及其R语言实现

原标题 xff1a 朴素贝叶斯和贝叶斯网络算法及其R语言实现作者 xff1a 鲁伟一个数据科学践行者的学习日记数据挖掘与机器学习 xff0c R与Python xff0c 理论与实践并行个人公众号 xff1a 数据科学家养成记微信

贝叶斯网络python实现_朴素贝叶斯和贝叶斯网络算法及其R语言实现

贝叶斯网络python实现_朴素贝叶斯和贝叶斯网络算法及其R语言实现 的相关文章

随机推荐

热门标签

贝叶斯网络python实现_朴素贝叶斯和贝叶斯网络算法及其R语言实现的相关文章