ML-朴素贝叶斯

2023-11-17

参考《西瓜书》P151

以前对贝叶斯参数的计算过程不是很清楚，在西瓜书里讲的很详细，原来可以把X属性分为离散型与连续型，离散型的话可以直接按照频率计算，连续型的话，要用极大似然估计，首先假设概率密度函数满足一个分布，比如正态分布，然后利用已知的数据集(X,Y)，来预测参数。预测过程可以参考逻辑回归推到损失函数。

后验概率

$\fn_cm \begin{align*} P(c|X) &= \frac{P(c)P(X|c)}{P(X)} \\ & = \frac{P(c)}{P(X)}\prod_{i=1}^{n}P(x_{i}|c) \end{align*}$

由于对所有类别来说P(X)相同，因此贝叶斯判定准则有

$h_{nb} = arg max P(c)\prod_{i=1}^{n}P(x_{i}|c)$

显然，朴素贝叶斯分类器的训练过程就是基于训练集D来估计类先验分布概率P(c)，并为每个属性估计条件概率 $P(x_{i}|c)$

令Dc 表示训练集D中第c类样本组合的集合，若有充足的独立同分布样本，则可容易地估计出类先验概率

$P(c) = \frac{|D_{c}|}{|D|}$

对离散属性而言，令表示Dc中在第i个属性上取值为xi 的样本组成的集合，则条件概率P(xi | c)可估计为

$P(x_{i}|c) = \frac{|D_{c,x_{i}}|}{|D_{c}|}$

对连续属性可考虑概率密度函数，假定其中

$P(x_{i}|c) = \frac{1}{\sqrt{2\pi }\sigma _{c,i}} exp (-\frac{(x_{i}-\mu _{c,i})^{2}}{2\sigma _{c,i}^{2}})$

$P(c) = \frac{|D_{c}|+1}{|D|+N}$

$P(x_{i}|c) = \frac{|D_{c,x_{i}}|+1}{|D_{c}|+N}$

全概率公式、贝叶斯公式推导过程

1）条件概率公式

设A,B是两个事件，且P(B)>0,则在事件B发生的条件下，事件A发生的条件概率（conditional probability)为：

P(A|B)=P(AB)/P(B)

（2）乘法公式

1.由条件概率公式得：

P(AB)=P(A|B)P(B)=P(B|A)P(A)

上式即为乘法公式；

2.乘法公式的推广：对于任何正整数n≥2，当P(A1A2...An-1) > 0 时，有：

P(A1A2...An-1An)=P(A1)P(A2|A1)P(A3|A1A2)...P(An|A1A2...An-1)

3）全概率公式

1. 如果事件组B1，B2，.... 满足

1.B1，B2....两两互斥，即 Bi ∩ Bj = ∅ ，i≠j ， i,j=1，2，....，且P(Bi)>0,i=1,2,....;

2.B1∪B2∪....=Ω ，则称事件组 B1,B2,...是样本空间Ω的一个划分

设 B1,B2,...是样本空间Ω的一个划分，A为任一事件，则：

上式即为全概率公式（formula of total probability)

2.全概率公式的意义在于，当直接计算P(A)较为困难,而P(Bi),P(A|Bi) (i=1,2,...)的计算较为简单时，可以利用全概率公式计算P(A)。思想就是，将事件A分解成几个小事件，通过求小事件的概率，然后相加从而求得事件A的概率，而将事件A进行分割的时候，不是直接对A进行分割，而是先找到样本空间Ω的一个个划分B1,B2,...Bn,这样事件A就被事件AB1,AB2,...ABn分解成了n部分，即A=AB1+AB2+...+ABn, 每一Bi发生都可能导致A发生相应的概率是P(A|Bi)，由加法公式得

P(A)=P(AB1)+P(AB2)+....+P(ABn)

=P(A|B1)P(B1)+P(A|B2)P(B2)+...+P(A|Bn)P(PBn)

3.实例：某车间用甲、乙、丙三台机床进行生产，各台机床次品率分别为5%，4%，2%，它们各自的产品分别占总量的25%，35%，40%，将它们的产品混在一起，求任取一个产品是次品的概率。

解：设..... P(A)=25%*5%+4%*35%+2%*40%=0.0345

（4）贝叶斯公式

1.与全概率公式解决的问题相反，贝叶斯公式是建立在条件概率的基础上寻找事件发生的原因（即大事件A已经发生的条件下，分割中的小事件Bi的概率），设B1,B2,...是样本空间Ω的一个划分，则对任一事件A（P(A)>0),有

上式即为贝叶斯公式（Bayes formula)，Bi 常被视为导致试验结果A发生的”原因“，P(Bi)(i=1,2,...)表示各种原因发生的可能性大小，故称先验概率；P(Bi|A)(i=1,2...)则反映当试验产生了结果A之后，再对各种原因概率的新认识，故称后验概率。

2.实例：发报台分别以概率0.6和0.4发出信号“∪”和“—”。由于通信系统受到干扰，当发出信号“∪”时，收报台分别以概率0.8和0.2受到信号“∪”和“—”；又当发出信号“—”时，收报台分别以概率0.9和0.1收到信号“—”和“∪”。求当收报台收到信号“∪”时，发报台确系发出“∪”的概率。

解：设....， P(B1|A）= (0.6*0.8)/(0.6*0.8+0.4*0.1)=0.923

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

ML

ML-朴素贝叶斯的相关文章

Pytorch遇到的问题及解决方案 - 更新ing

1 安装完成后不能import torch 提示 ImportError dlopen cannot load any more object with static TLS 解决办法有很多答案都说是将import torch放在imp
steps_per_epoch=2000,epochs=100之间的区别

第一种解释 batchsize 中文翻译为批大小批尺寸在深度学习中一般采用SGD训练即每次训练在训练集中取batchsize个样本训练 iteration 中文翻译为迭代 1个iteration等于使用batchsize个样本训练一
pytorch/torch安装简明教程

LINUX上安装 0 进入官网https pytorch org 按照你的系统以及配置获取安装命令 1 安装gpu版本的torch cuda包用于torch调用gpu加速库 pip install torch 1 5 0 cu101 t
李宏毅机器学习笔记 Classification

1 绪论 Classification Probabilistic Generative Model 本节课讲的是基于概率生成模型的分类分类任务本质上是找到一个函数函数的输入是输入数据输出是类别应用范围比较广例如信用卡评分医学诊
卷积过程的一个动态图很形象

卷积神经网络的卷积过程
graphviz安装及使用、决策树生成

一 graphviz下载安装下载网址 http www graphviz org download 选择合适版本下载 1 1 双击安装 1 2 点击下一步 1 3 点击我接受 1 4 添加至系统路径勾选添加至当前用户的系统路径创建桌面
kmeans总结

1 关于分类和聚类 kmeans属于聚类算法中的一种分类和聚类是不同的概念虽然两者的目的都是对数据进行分类但是却有一定的区别分类是按照某种标准给对象贴标签再根据标签来区分归类聚类是事先没有给出标签刚开始并不知道如何对数据分类
周志华《Machine Learning》学习笔记（17）--强化学习

上篇主要介绍了概率图模型首先从生成式模型与判别式模型的定义出发引出了概率图模型的基本概念即利用图结构来表达变量之间的依赖关系接着分别介绍了隐马尔可夫模型马尔可夫随机场条件随机场精确推断方法以及LDA话题模型 HMM主要围绕着评
【机器学习】通俗易懂决策树（实战篇）python实现（为新患者找到合适的药物）

决策树我们将学习一种更流行的机器学习算法决策树我们将使用此算法从患者的历史数据以及他们对不同药物的反应大数据中用训练过的决策树来构建分类模型预测未知患者的类别或者说为新患者找到合适的药物导入以下包 numpy as np pan
基于时间序列的短期数据预测--ARMA模型的设计与实现(每个步骤附实现源码)

本文demo源码实验数据传送门引言前面我有分享两篇关于时间序列模型的文章一篇是 Holt Winters模型原理分析及代码实现 python 一篇是 LSTM模型分析及对时序数据预测的具体实现 python实现 holt wint
小波分析

本文首先介绍了从傅里叶变换到小波变换的发展史然后着重强调了小波变换的两种作用时频分析和多分辨率分析最后讲了一下吉布斯效应等相关知识 FT 傅里叶变换通过将信号分解成正余弦函数把三角函数当做函数空间的基将时域信号转化为频域信号缺
ML-逻辑回归-Softmax-交叉熵（小航）

在分类问题中交叉熵的本质就是对数似然函数的最大化逻辑回归的损失函数的本质就是对数似然函数的最大化最大似然估计讲解 https www jianshu com p 191c029ad369 参考统计学习方法笔记 P79 soft
Compressed Sparse Column format(CSC)

CSR Compressed Sparse Row format 和CSC Compressed Spare Column format 都是一种稀疏矩阵的存储格式这里分别给出实例假设有如下矩阵 1360
《机器学习》读书笔记2--线性模型

目录线性模型基本形式线性回归对数几率回归线性判别分析多分类学习类别不平衡问题 ps 写在前面本文是在参加datawhale组队学习学习周志华老师的机器学习过程的学习笔记文中出现的图片均引自机器学习机器学习是初学者
最大似然估计（ML）

1 说明最大似然估计 Maximum Likelihood Estimation ML 是一种在给定观察数据情况下来评估模型参数的算法它属于一种统计方法用来求一个样本集的相关概率密度函数的参数例如统计全校人口的身高我们已知身高
Binary Classification Core PLA

Target Step Verify My verification Pocket Algorithm Pros Cons of PLA
SML 中绑定的价值？

有人可以解释一下为什么评估后 and 的值一定是 16 这是正确的答案吗我认为答案 3 是因为我们调用函数 f 并将值 1 和 2 作为函数 f 发送但看不到值 5 和 10 但我想我错了 val x 1 val y 2 val f f
ML 中 ref 函数的用法

考虑到 ref 运算符我很难理解它的应用以及以下指令的含义 1 在这个定义中我定义什么 val ref x ref 9 val x 9 int 2 我在这里用 ref x ref 12 做什么 val x ref 8 val x ref
何时在 SML 中使用分号？

我知道分号在 REPL 中用作终止符但我对何时在源文件中使用它们感到困惑例如之后不需要val x 1 但如果我之后省略它use foo sml 编译器会抱怨它那么分号的使用规则是什么呢分号用于 SML 中的许多语法实体它们通常
标准机器学习中的结构比较

我似乎找不到关于为什么这不起作用的参考 2000 1 lt 2000 1 stdIn 18 1 18 18 Error operator and operand don t agree overload operator domain Z

随机推荐

4.网络爬虫—Post请求(实战演示)

网络爬虫 Post请求实战演示 POST请求 GET请求 POST请求和GET请求的区别获取二进制数据爬百度官网 https www baidu com logo实战发送post请求百度翻译实战使用session发送请求模拟登
喜报

本文部分内容来自中国AIOps现状调查报告 2023 丝小编扣1 领取完整版报告 2023年7月18日信通院Xops产业创新发展论坛于北京成功举办大会旨在提高企业研发运营水平加强XOps体系建设经验分享以三大不同主题的分论坛组成
异步复位，同步释放的理解

文章目录什么情况下复位信号需要做异步复位同步释放处理异步复位同步释放原理利用前面两级触发器实现特点问题1 如果没有前面两级触发器的处理异步信号直接驱动系统的触发器会出现什么情况问题2 复位信号存在亚稳态有危险吗问
Angular中的管道

Angular同在在模板文件中使用一些管道这些管道是用来对字符串货币金额日期等数据进行转换和格式化的管道的本质是一些简单的函数可以在模板表达式中用来接受输入值并返回一个按一定规则转换后的值 Angular内置管道 DatePipe
js数组的includes方法优化判断逻辑

js数组的includes方法代替大量判断优化前 function printAnimals animal if animal dog animal cat console log I have a animal printAnimals
Python 利用随机函数和电脑玩石头剪刀布

首先导入第三方库 random import random 注意使用前请先下载random函数 import random 从控制台出拳拳头剪刀布 player input 请输入你要出的拳石头剪刀布电脑随机出拳先假定电脑
vue+element-ui el-table组件二次封装（2023-09-03 TTable组件实现虚拟滚动，解决数据量大页面卡顿问题）

2023 09 03 TTable组件实现虚拟滚动解决数据量大页面卡顿问题所有示例效果 1 简介 HTML一行代码可以实现表格编辑分页表格内外按钮操作行内文字变色动态字典展示 filters格式化数据排序显示隐藏表格内操
三维旋转：旋转矩阵，欧拉角，四元数

在介绍下面的文章前大家如果接触到欧拉角的话就一定要关注一个词要顺规在欧拉角体系里面有12种顺规这一点是好多文章没有让读书意识到导致后面学习图形学里面的 heading pitch bank 时对不上号一般百度百科里面说到的
课程笔记2

一实现 1 区块链是去中心化的账本比特币采用的是基于交易的账本模式区块链的全节点需要维护一种名叫UTXO的数据结构所有未花掉的交易的输出的集合可以有效检测双花攻击交易的总输入略微大于总输出这是因为比特币的第二个激励机制获得记
load data inpath出错原因及解决方法

hive gt load data inpath hdfs Master hdp 9000 person txt into table Person1 FAILED SemanticException Error 10028 Line 1
java setcellvalue NA_java minioClient.setBucketPolicy 调用失败折腾好几天了求大佬解惑...

方法调用后提示 Request processing failed nested exception is java lang IllegalArgumentException unknown error code string Malf
简要损益科目口诀，营业外收支和其他业务收支的区别

一损益科目口诀三收三费所得税两成三益外加减三收主营业务收入其他业务收入营业外收入三费管理费用财务费用销售费用这是常用费用某些企业可能还分有研究开发费用两成主营业务成本其他业务成本三益投资收益公允价值变动
java查看包的源代码

把鼠标放在方法上按Ctrl进去打开的 class文件就是Java jdk1 7 0 src zip中的源码但是在Java jdk1 7 0 src zip 中是以 java为扩展名
ios开发教程入门到精通

第1集初识macOS 点击观看第2集开发工具Xcode 点击观看第3集初识Objective C 点击观看待续
华为机试牛客网 HJ1 字符串最后一个单词的长度

华为机试牛客网 HJ1 字符串最后一个单词的长度描述输入描述输出描述示例一解法一解法二反思描述计算字符串最后一个单词的长度单词以空格隔开字符串长度小于5000 输入描述输入一行代表要计算的字符串非空长度小于5
shell简单脚本编写

1 第一步安装邮件服务 root server yum install s nail y 第二步编辑配置文件 root server vim etc s nail rc set from 自己的qq邮箱地址 set smtp smtp
OpenCV - 基本知识

1 读取并显示图片 namedWindow新建一个显示窗口 imshow输出图片 namedwindow可有可无 Mat image cv imread E 其他文档图片 2 jpg 2 cv namedWindow 照片 CV WIND
window中gcc编译程序、编辑环境配置以及gcc编译程序的过程（含system函数以及CMD快捷键）

1 system函数的使用 include
关于rocketmq 中日志文件路径的配置

前些天发现了一个巨牛的人工智能学习网站通俗易懂风趣幽默忍不住分享一下给大家点击跳转到网站 rocketmq 中的数据和日志文件默认都是存储在user home路径下面的往往我们都需要修改这些路径到指定文件夹以便管理服务端日志网
ML-朴素贝叶斯

参考西瓜书 P151 以前对贝叶斯参数的计算过程不是很清楚在西瓜书里讲的很详细原来可以把X属性分为离散型与连续型离散型的话可以直接按照频率计算连续型的话要用极大似然估计首先假设概率密度函数满足一个分布比如正态分布然后利用已

ML-朴素贝叶斯

ML-朴素贝叶斯 的相关文章

随机推荐

热门标签

ML-朴素贝叶斯的相关文章