数学基础--高斯分布详解

2023-05-16

1、简介

  正态分布(Normal Distribution),又名高斯分布(Gaussian Distribution),是一个在数学、物理及工程等领域都非常重要的概率分布,在统计学的许多方面有着重大的影响力。

  约翰·卡尔·弗里德里希·高斯(Johann Carl Friedrich Gauss)是德国著名数学家、物理学家、天文学家、大地测量学家,他是近代数学奠基者之一,被认为是历史上最重要的数学家之一,并享有“数学王子”的美誉。他的头像也被印在以前德国的官方货币(德国马克 10 马克)上,如图 1 所示。
在这里插入图片描述
  有一种说法认为,高斯和阿基米德、牛顿并列为世界三大数学家,虽然这个说法没有得到书面和史料方面的支持。但是客观地评价,高斯、阿基米德、牛顿这3位科学家对于数学发展的贡献确实都是丰碑性质的,这点毋庸置疑。

2、高斯分布详解

  先来看一下高斯分布的概率密度函数:
在这里插入图片描述
  上图所示为高斯密度函数的函数曲线。
在这里插入图片描述
  上图为高斯密度函数的函数曲线,熟悉高斯分布的人自然觉得非常亲切,不熟悉高斯分布的朋友估计会感觉有些不知所云,这里简单介绍一下。

  先介绍一下什么是概率密度函数,大家知道,y=f(x) 这种表达式是以前在中学学习函数时使用的一种表达式,表示函数值 y 和自变量 x 函数关系,f(x) 展开之后就具体解释了 x 参与运算的过程。而概率密度实际指的是 y=f(x),x 是样本特性自变量,y 是 x 在这个样本特性上的数量比例。exp 指的是自然常数 e 的幂函数,即 e 的多少次幂的概念(e 是一个无理数,也就是无限不循环小数,e≈2.71828…)。这个函数的峰值在 x=μ 的位置,此时对应的函数值 y 为:
在这里插入图片描述
  其实,这里样本数量的计算用的是定积分的定义,即整个函数曲线在其下方围住的与 y=0(x 轴)所围成的面积占比。它在 x=μ 左右两侧的函数是对称的:

  • x 在 μ-σ 和 μ+σ 之间的样本数量占到整个样本数量的 68.2%;
  • x 在 μ-2σ 和 μ+2σ 之间的样本数量占到整个样本数量的 95.4%;
  • x 在 μ-3σ 和 μ+3σ 之间的样本数量占到整个样本数量的99.6%;

  高斯分布作为分布特性的一种,首先是用来描述统计对象的,如果统计对象的分布特性符合高斯分布,那么所有针对高斯分布的定理和“经验值”就能够直接套用。而高斯分布本身在自然界的应用是非常广泛的,用一句话解释高斯分布所表现的分布特点就是“一般般的很多,极端的很少”。

  这里举一个具体的例子,假如对某一地区的男性身高做了一个随机抽样,一共 1000 人,结果发现他们的身高是一个 μ=175cm 的高斯分布,σ=10cm。那么首先,这样一个描述就已经能够清晰地说明这个抽样检查的结果了,而以下结论也就随之成立(图 3 )。

  • 身高 165~175cm 的人(大约)有 341 名。
  • 身高 175~185cm 的人(大约)有 341 名。
  • 身高 155~165cm 的人(大约)有 136 名。
  • 身高 185~195cm 的人(大约)有 136 名。
  • 身高 145~155cm 的人(大约)有 21 名。
  • 身高 195~205cm 的人(大约)有 21 名。
    1000人的身高分布
      这些数量基本已经涵盖了统计总人数的 99.6 %。需要注意的是,根据统计的情况在不同的条件下 μ 和 σ 的值可能会不同:
  • μ 较大,则整个函数图像的中轴向右挪动比较多。
  • μ 较小,则函数图像的中轴向左挪动比较多。
  • σ 较大,则整个曲线绵延比较长,整个坡度显得平缓。
  • σ 较小,整个曲线窄而立陡。

  符合高斯分布特性的对象是非常多的,平时也会看到很多这种“一般般的很多,极端的很少”的现象。如平时小区里的汽车,其中中档的比较多,高级的比较少,特别破的也比较少(在不同档次的社区注意 μ 可能会不同,就是平均水平在不同小区之间可能偏差很多,高档小区的车普遍比较好,μ 就比较大;低档小区的车普遍不大好,μ 就比较小)。如某小区如图 4 所示,大部分人买的汽车都 30 万左右,价格高的和低的汽车数量都随着与 30 万的距离变大而渐变少。
汽车的价格与数量关系
  我们平时接触的人里,智慧一般的人很多,非常聪明的人较少,非常愚笨的人也较少(在一些大公司或者重点学校里虽然整体的聪明程度提高,但是还是存在这个小范围内的高斯分布,即 μ 比较偏右,而 σ 比较小)。如某公司全体员工集体做了一次 IQ 测试(智商测试),测试结果表明智商在 110 附近的人最多,智商在 90 到 100 之间的较少,同时智商在 120 到 130 之间的较少,而智商在 80 到 90 之间以及 130 到 140 之间的就更少了(图 5)。这也符合人们一般性的认知。
智商与人数关系

  再如,全社会范围内的收入,中档次收入的人比较多,特别贫穷和特别富裕的人较少,但是他们在地域上的分布和职业类别上的分布可能就不那么均匀了。诸如此类的例子还有很多。

3、高斯分布应用

  首先刚才说过,如果在统计过程中发现一个样本呈现高斯分布的特性,只需要把样本总数量、μ 和 σ 表述出来,就已经能够形成一个完整的画面感了。这对人们描述对象是有很大帮助的。还有一个好处,就是我们发现了这样一个特性以后,在生产制造、商业等领域会有很多对应性的用法能够减少不必要的投入或损失。

  例如,在设计一款服装后,S/M/L/XL 这些号码怎么设计比较合理呢?设计完了制造多少较合理呢?这时就可以在抽样后在高斯分布曲线上找到这些合适的点。既然 μ-σ 和 μ+σ 之间已经占 68.2%了,那么如果没有足够的预算或者精力,可以只先尝试做一个以 μ 为标准的板式,针对一部分人打板做市场推广。因为再做 μ-σ 和 μ+σ 这两个如此不同的板式,打板成本将会再提高 2 倍,但是增益仅有不到 50%(这从概率密度函数上就可以看出来)。这其实就是一种针对市场迎合的分析和尝试,即优先做那些受众情况最一般、人数最集中的部分。

  再如,常常会听到“二八法则”这种说法,在不同的场景里这可能是高斯分布的一种形式。假设正在经营一家游戏公司,公司有一款刚起步不久的产品 A 游戏,A 游戏有 1 万用户,如果想做这一款游戏的用户拓展工作应该怎么去考虑呢?

  或许可以尝试这样:先看看这 1 万用户中每个用户平均在游戏里充值花多少钱,做一个排名。不花钱玩的人会不少,还有一些花极多的钱来玩游戏的玩家,中间的是中坚力量(用户数量大),每个人花费的额度适中,持续周期较长,这样的一群人更值得关注。对于这些用户,如果能够知道他们加入游戏的渠道的分布比例,就有理由相信这些渠道的特点和它们覆盖这些用户的特点是有相关性的。

  例如,这些表活跃的用户究竟是经由在大学校园里做宣传活动加入的,还是由于在某些游戏门户网站发的广告加入的,还是通过某些免费软件的推广渠道加入的。那么如果想扩大这部分用户的数量可以对应地加大这部分渠道的流量。至少直观上看,这比盲目地进行全方位立体交叉的广告投放效果要好。

参考资料:
《高斯分布(正态分布)函数用法详解》

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

数学基础--高斯分布详解 的相关文章

  • python 深度学习[数学基础-1-函数,极限]

    文章目录 函数 函数
  • python 深度学习-数学基础-2-导数

    z z的变化值比上距离的极限
  • 矩阵分解(1)-- 矩阵分解之LU、LDLT、Cholesky分解

    1 分类 矩阵分解 decomposition factorization 是多半将矩阵拆解为数个三角形矩阵 triangular matrix 依使用目的的不同 可分为几类 与线性方程解法相关的矩阵分解 LU分解 奇异值分解 QR分解 极
  • FCM——(Fuzzy C-means)模糊C均值算法

    FCM算法是一种基于划分的聚类算法 它的思想就是使得被划分到同一簇的对象之间相似度最大 而不同簇之间的相似度最小 模糊C均值算法是普通C均值算法的改进 普通C均值算法对于数据的划分是硬性的 而FCM则是一种柔性的模糊划分 模糊聚类的目标函数
  • 几何平均详解,及其与算术平均、调和平均、均方根的关系

    2 几何平均与算术平均的转换关系 附 3 2 几何平均数适用于求连乘样本的均值 它是变化的中心 代表平均变化率 算术平均数适用于求连加样本的均值 它是数值的中心 代表平均数量 中位数适合求带有离群值样本的均值 它是位置的中心 代表平均位置
  • 协方差矩阵与PCA深入原理剖析

    一 协方差矩阵 一个维度上方差的定义 协方差的定义 a 协方差就是计算了两个维度之间的相关性 即这个样本的这两个维度之间有没有关系 协方差为0 证明这两个维度之间没有关系 协方差为正 两个正相关 为负则负相关 协方差矩阵的定义 对n个维度
  • 算法的复杂度

    常用的算法的时间复杂度和空间复杂度 排序法 最差时间分析 平均时间复杂度 稳定度 空间复杂度 冒泡排序 O n2 O n2 稳定 O 1 快速排序 O n2 O n log2n 不稳定 O log2n O n 选择排序 O n2 O n2
  • 机器学习之数学基础

    机器学习之数学基础 机器学习所需的数学知识 微积分 线性代数 概率论 最优化方法 微积分知识 导数与求导公式 一阶导数与函数的单调性 一元函数极值判定法则 高阶导数 二阶导数与函数的凹凸性 一元函数泰勒展开 偏导数与梯度 高阶偏导数 雅克比
  • 模拟退火算法——概率法解全局优化

    1 直观介绍 模拟退火算法来源于固体退火原理 是一种基于概率的算法 将固体加温至充分高 再让其徐徐冷却 加温时 固体内部粒子随温升变为无序状 内能增大 而徐徐冷却时粒子渐趋有序 在每个温度都达到平衡态 最后在常温时达到基态 内能减为最小 它
  • 【数学】三角函数及部分微积分函数图象整理

    三角函数及部分微积分函数图象整理 1 三角函数 1 1 cosx secx 1 2 sinx cscx 1 3 tanx cotx 1 4 s e c
  • 使用C++ Eigen库求解线性方程组Ax=b

    Eigen http eigen tuxfamily org 是常用的 C 矩阵运算库 具有很高的运算效率 大部分 需要在 C 中使用矩阵运算的库 都会选用 Eigen 作为基本代数库 例如 Google Tensorflow Google
  • 概率论与数理统计(一)随机事件,样本空间

    1 D 2 A 3 C 4 AD 5 正确答案 1 2 1 3 2 1 2 3 3 1 3 2
  • 矩阵的迹(Trace)

    译自维基百科 在线性代数中 方阵A n n 的迹定义为对角线元素的和 即 矩阵的迹表示的是特征值的和 它不随基的变化而变化 通常 这种特性可以用来定义线性算子的轨迹 注意 迹是对方阵而言的 举例 A是一个方阵 如下 则A的迹表示为 迹的特性
  • 数学基础--均值、方差、标准差、协方差

    1 简介 统计学中最核心的概念之一是 标准差及其与其他统计量 如方差和均值 之间的关系 本文将对标准差这一概念提供直观的视觉解释 在文章的最后我们将会介绍协方差的概念 2 概念介绍 均值 均值 均值就是将所有的数据相加求平均 求得一个样本数
  • 数学基础课之01二进制

    关于Java的移位符 左移位 lt lt 右移位 gt gt 表示算术右移 gt gt gt 表示逻辑右移 python同Java 由于java的二进制数最高位为符号位 0为正 1为负 右移位涉及到最左补0还是补1的问题 逻辑右移直接补0即
  • 经验模式分解(EMD)——简介及Matlab工具箱安装

    最近在做脑电信号分析 在导师的建议下学习了一点经验模式分解 下面简称EMD 的皮毛 期间也是遇到了很多问题 在这里整理出来 一是为了自己备忘 二是为了能尽量帮到有需要的朋友 一 EMD简介 经验模态分解 Empirical Mode Dec
  • 几个常用数学知识点

    机器学习跟数学有着紧密的关系 因此掌握一些常用的数学知识点 有助于我们理解某些模型的底层相关原理 1 泰勒公式 2 驻点 极值点 鞍点 拐点 2 1 驻点 在数学 特别在微积分 函数在一点处的一阶导数为零 该点即函数的驻点 Stationa
  • 非中心卡方分布

    非中心卡方分布 非中心卡方分布是卡方分布的一般化形式 如果 是 个独立的正态分布的随机变量均值为 方差为 表示为 那么随机变量 为非中心卡方分布 非中心卡方分布涉及两个参数 表示自由度 即 的数目 是和随机变量 相关的参数 由以上参数所定义
  • 数学基础:向量求导整理

    0矩阵求导网站 不包括叉乘和点乘求导 http www matrixcalculus org 1标量对向量求导 标量 分子 分别对行 列向量 分母 各元素求导 结果仍为行 列向量 维度与分母一致 定义行向量 y T y
  • 朴素贝叶斯基本原理和预测过程、先验概率、后验概率、似然概率概念

    贝叶斯原理是英国数学家托马斯 贝叶斯提出的 贝叶斯原理 建立在主观判断的基础上 在我们不了解所有客观事实的情况下 同样可以先估计一个值 然后根据实际结果不断进行修正 举例 一个袋子里有10个球 其中6个黑球 4个白球 那么随机抓一个黑球的概

随机推荐

  • ViewBinding封装基类(BaseActivity,BaseFragment)

    混淆规则 keep class 包名 databinding 使用反射 BaseActivity public class BaseActivity lt T extends ViewBinding gt extends AppCompat
  • acc--›Android无障碍开发手势操作

    文章目录 前言dispatchGesture 96 api gt 61 24 96 GestureDescriptionGestureResultCallback执行手势 DslAccessibilityGestureclick 点击dou
  • C语言基础学习——基本数据类型(float型)

    1 float型 xff08 浮点型 xff09 浮点型是用来表示小数的 xff0c 默认至少有6位有效小数 xff1b 有float xff08 单精度 xff09 xff0c double xff08 双精度 xff09 xff0c l
  • Mybatis整合Spring和SpringMVC配置文件详解

    配置文件 pom xml xff08 配置我们需要的jar包 xff09 web xml xff08 启动spring容器监听器并加载spring的xml文件 xff0c 加载springmvc前端控制器 xff09 springmvc的配
  • 高并发场景下如何保证数据库和缓存的数据一致性

    高并发场景下如何保证数据库和缓存的数据一致性 分析经典做法 分析 只要用缓存 xff0c 就可能会涉及到缓存与数据库双存储双写 xff0c 你只要是双写 xff0c 就一定会有数据一致性的问题 xff0c 那么你如何解决一致性问题 xff1
  • XmlDocument类详解

    xfeff xfeff XmlDocument类 FreeEIM XmlDocument类是 NET框架的DOC解析器 XmlDocument将XML视为树状结构 xff0c 它装载XML文档 xff0c 并在内存中构建该文档的树状结构 下
  • 1024,如果全世界程序员都消失了,会怎样?

    这两天 xff0c 有一个话题引起了程序员的广泛讨论 xff1a 年薪80W程序员相亲被鄙视 某知名互联网社区 xff0c 一网友发帖 xff0c 自己年薪80W去相亲 xff0c 竟然被鄙视不如在二本学校教书的大学老师 估计令他没想到的是
  • AI---是什么?可以做什么?

    1 AI的项目简单介绍 图像识别 描述 xff1a 给定图片 xff0c 识别图片中有什么 xff1f 算法 xff1a KNN CNN 情感分析 描述 xff1a 判断文本包含的情感是正面 负面还是中性 关键 xff1a 文本如何表示成向
  • linux 下 gb18030 转码成 utf8

    iconv f gb18030 t utf8 1 txt o 2 txt
  • ocelot+IdentityServer认证

    IdentityServer4 IdentityServer4是用于ASP NET Core的OpenID Connect和OAuth 2 0框架 具体大家可以自己搜索 xff0c 网上很多 我不想写的就推荐别人的 IdentityServ
  • 图中连通块的个数:并查集

    图的连通性问题 在地图上有若干城镇 xff08 点 xff09 xff0c 已知所有有道路直接相连的城镇对 要解决整幅图的连通性问题 比如 xff0c 随意给你两个点 xff0c 让你判断它们是否连通 xff1b 或者问你整幅图一共有几个连
  • 依赖注入

    举个例子 xff0c 组件A中有类ClassA xff0c 组件B中有接口IB和其对应的实现类B1和B2 那么 xff0c 现在ClassA需要利用IB接口来做一些事情 xff0c 例如 xff1a public class ClassA
  • acc--›Android无障碍开发框架

    文章目录 前言框架介绍目标界面找到元素进行操作 系列文章联系作者 前言 针对Android无障碍开发 和使用场景 封装出来一个可以适用于各种场景的快速开发框架 框架介绍 无障碍的本质就是通过代码模拟人工操作 所以流程很明确 可以归纳为 目标
  • debian(Linux) gnome-control-center

    参考链接 xff1a http iokevins blogspot com 2015 09 gnome 3 system settings gnome control html 问题 今天在simba配置完成后 xff0c gnome co
  • KindEditor上传单个图片成功,页面却提示失败 —— 在Chrome新版本中不兼容的解决方案

    不得不说 xff0c 这个所谓的不兼容 xff0c 就是Chrome浏览器搞的鬼啊 我也不知道是我机子上的Chrome浏览器配置有问题还是怎么回事 xff0c 总之记录下来 xff0c 大家可以看看你们是不是也遇到了一样的问题 先上图 1
  • Zookeeper 应用

    数据发布 订阅 数据发布 订阅 xff08 Publish Subscribe xff09 系统 xff0c 即所谓的配置中 xff0c 顾名思义就是发布者将数据发布到ZooKeeper的 个或 系列节点上 xff0c 供订阅者进 数据订阅
  • ONVIF协议--ONVIF协议简介

    1 ONVIF简介 网络摄像机是网络设备 xff0c 需要有通讯协议 xff0c 早期的网络摄像机硬件提供商都采用私有协议 随着视频监控的网络化应用 xff0c 产业链的分工将越来越细 有些厂商专门做摄像头 xff0c 有些厂商专门做视频服
  • GB28181协议--GB28181协议简介

    1 GB T 28181 2016协议简介 近年来 xff0c 国内视频监控应用发展迅猛 xff0c 系统接入规模不断扩大 xff0c 涌现了大量平台提供商 xff0c 平台提供商的接入协议各不相同 xff0c 终端制造商需要给每款终端维护
  • 网络基础--UPnP基本原理

    1 简介 UPnP是通用即插即用 xff08 Universal Plug and Play xff09 的缩写 xff0c 主要用于设备的智能互联互通 xff0c 使用UPnP协议不需要设备驱动程序 xff0c 它可以运行在目前几乎所有的
  • 数学基础--高斯分布详解

    1 简介 正态分布 xff08 Normal Distribution xff09 xff0c 又名高斯分布 xff08 Gaussian Distribution xff09 xff0c 是一个在数学 物理及工程等领域都非常重要的概率分布