数学在机器学习中的重要性

2023-11-05

数学在机器学习中的重要性[by Dahua Lin]

Linear Algebra (线性代数) 和 Statistics (统计学) 是最重要和不可缺少的。这代表了Machine Learning中最主流的两大类方法的基础。一种是以研究函数和变换为重点的代数方法，比如Dimension reduction，feature extraction，Kernel等，一种是以研究统计模型和样本分布为重点的统计方法，比如Graphical model, Information theoretical models等。它们侧重虽有不同，但是常常是共同使用的，对于代数方法，往往需要统计上的解释，对于统计模型，其具体计算则需要代数的帮助。

以代数和统计为出发点，继续往深处走，我们会发现需要更多的数学。

Calculus (微积分)，只是数学分析体系的基础。其基础性作用不言而喻。Learning研究的大部分问题是在连续的度量空间进行的，无论代数还是统计，在研究优化问题的时候，对一个映射的微分或者梯度的分析总是不可避免。而在统计学中，Marginalization和积分更是密不可分——不过，以解析形式把积分导出来的情况则不多见。

Partial Differential Equation （偏微分方程)，这主要用于描述动态过程，或者仿动态过程。这个学科在Vision中用得比Learning多，主要用于描述连续场的运动或者扩散过程。比如Level set, Optical flow都是这方面的典型例子。

Functional Analysis (泛函分析)， 通俗地，可以理解为微积分从有限维空间到无限维空间的拓展——当然了，它实际上远不止于此。在这个地方，函数以及其所作用的对象之间存在的对偶关系扮演了非常重要的角色。Learning发展至今，也在向无限维延伸——从研究有限维向量的问题到以无限维的函数为研究对象。Kernel Learning 和 Gaussian Process 是其中典型的例子——其中的核心概念都是Kernel。很多做Learning的人把Kernel简单理解为Kernel trick的运用，这就把kernel的意义严重弱化了。在泛函里面，Kernel (Inner Product) 是建立整个博大的代数体系的根本，从metric, transform到spectrum都根源于此。

Measure Theory (测度理论)，这是和实分析关系非常密切的学科。但是测度理论并不限于此。从某种意义上说，Real Analysis可以从Lebesgue Measure（勒贝格测度）推演，不过其实还有很多别的测度体系——概率本身就是一种测度。测度理论对于Learning的意义是根本的，现代统计学整个就是建立在测度理论的基础之上——虽然初级的概率论教科书一般不这样引入。在看一些统计方面的文章的时候，你可能会发现，它们会把统计的公式改用测度来表达，这样做有两个好处：所有的推导和结论不用分别给连续分布和离散分布各自写一遍了，这两种东西都可以用同一的测度形式表达：连续分布的积分基于Lebesgue测度，离散分布的求和基于计数测度，而且还能推广到那种既不连续又不离散的分布中去（这种东西不是数学家的游戏，而是已经在实用的东西，在Dirchlet Process或者Pitman-Yor Process里面会经常看到)。而且，即使是连续积分，如果不是在欧氏空间进行，而是在更一般的拓扑空间（比如微分流形或者变换群），那么传统的黎曼积分（就是大学一年级在微积分课学的那种）就不work了，你可能需要它们的一些推广，比如Haar Measure或者Lebesgue-Stieltjes积分。

Topology（拓扑学)，这是学术中很基础的学科。它一般不直接提供方法，但是它的很多概念和定理是其它数学分支的基石。看很多别的数学的时候，你会经常接触这样一些概念：Open set / Closed set(开/闭集)，set basis，Hausdauf, continuous function(连续函数)，metric space(度测空间), Cauchy sequence（柯西序列）, neighborhood（邻域）,compactness（紧密度）, connectivity（连通性）。很多这些也许在大学一年级就学习过一些，当时是基于极限的概念获得的。如果，看过拓扑学之后，对这些概念的认识会有根本性的拓展。比如，连续函数，当时是由epison法定义的，就是无论取多小的正数epsilon，都存在xxx，使得xxx。这是需要一种metric去度量距离的，在general topology里面，对于连续函数的定义连坐标和距离都不需要——如果一个映射使得开集的原像是开集，它就是连续的——至于开集是基于集合论定义的，不是通常的开区间的意思。这只是最简单的例子。当然，我们研究learning也许不需要深究这些数学概念背后的公理体系，但是，打破原来定义的概念的局限在很多问题上是必须的——尤其是当你研究的东西它不是在欧氏空间里面的时候——正交矩阵，变换群，流形，概率分布的空间，都属于此。

Differential Manifold (微分流形)， 通俗地说它研究的是平滑的曲面。一个直接的印象是它是不是可以用来fitting一个surface什么的——当然这算是一种应用，但是这是非常初步的。本质上说，微分流形研究的是平滑的拓扑结构。一个空间构成微分流形的基本要素是局部平滑：从拓扑学来理解，就是它的任意局部都同胚于欧氏空间，从解析的角度来看，就是相容的局部坐标系统。当然，在全局上，它不要求和欧氏空间同胚。它除了可以用于刻画集合上的平滑曲面外，更重要的意义在于，它可以用于研究很多重要的集合。一个n-维线性空间的全部k-维子空间(k < n)就构成了一个微分流形——著名的Grassman Manifold。所有的标准正交阵也构成一个流形。一个变换群作用于一个空间形成的轨迹(Orbit) 也是通常会形成流形。在流形上，各种的分析方法，比如映射，微分，积分都被移植过来了。前一两年在Learning里面火了好长时间的Manifold Learning其实只是研究了这个分支的其中一个概念的应用: embedding。其实，它还有很多可以发掘的空间。

Lie Group Theory (李群论)，一般意义的群论在Learning中被运用的不是很多，群论在Learning中用得较多的是它的一个重要方向Lie group。定义在平滑流行上的群，并且其群运算是平滑的话，那么这就叫李群。因为Learning和编码不同，更多关注的是连续空间，因为Lie group在各种群中对于Learning特别重要。各种子空间，线性变换，非奇异矩阵都基于通常意义的矩阵乘法构成李群。在李群中的映射，变换，度量，划分等等都对于Learning中代数方法的研究有重要指导意义。

Graph Theory（图论)，图，由于它在表述各种关系的强大能力以及优雅的理论，高效的算法，越来越受到Learning领域的欢迎。经典图论，在Learning中的一个最重要应用就是graphical models了，它被成功运用于分析统计网络的结构和规划统计推断的流程。Graphical model所取得的成功，图论可谓功不可没。在Vision里面，maxflow (graphcut)算法在图像分割，Stereo还有各种能量优化中也广受应用。另外一个重要的图论分支就是Algebraic graph theory (代数图论)，主要运用于图的谱分析，著名的应用包括Normalized Cut和Spectral Clustering。近年来在semi-supervised learning中受到特别关注

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

数学在机器学习中的重要性的相关文章

分类报告 - 精度和 F 分数定义不明确

我从 sklearn metrics 导入了classification report 当我输入我的np arrays作为参数我收到以下错误 usr local lib python3 6 dist packages sklearn met
Haar级联正例图像大小调整

我正在迈出第一步为自定义对象识别创建 haar 级联我花了时间获取大量数据并编写了一些预处理脚本以将视频转换为帧我的下一步是裁剪感兴趣的对象以创建一些积极的训练示例我有几个问题我确实在网上寻找答案我有点困惑我读到我应该致力于
线性问题和非线性问题之间的区别？点积和核技巧的本质

核技巧将非线性问题映射为线性问题我的问题是 1 线性问题和非线性问题的主要区别是什么这两类问题的差异背后的直觉是什么核技巧如何帮助在非线性问题上使用线性分类器 2 为什么点积在这两种情况下如此重要 Thanks 当人们说到分类问题的线
使用神经网络包进行多项分类

这个问题应该很简单但文档没有帮助我正在使用 R 我必须使用neuralnet多项式分类问题的包所有示例均针对二项式或线性输出我可以使用二项式输出进行一些一对一的实现但我相信我应该能够通过使用 3 个单元作为输出层来做到这一点其中
Tensorflow 2.0 中的二阶导数

我正在尝试计算标量变量的简单向量函数的二阶导数f x x x 2 x 3 使用 TF 2 3 与tf GradientTape def f ab x return x x 2 x 3 import tensorflow as tf in1
如何用Python构建游戏神经网络？

我是神经网络初学者我想通过教计算机下跳棋来学习神经网络的基础知识其实我想学的游戏是盛气凌人 http en wikipedia org wiki Domineering and Hex http en wikipedia org wik
使用 glmnet 纠正 n 个数据集上的 n 个 LASSO 回归的输出（严格来说是所选的特征/变量）

注意这是对上一个问题 https stackoverflow com questions 75006466 how to replicate my results from running n lassos iteratively usi
Azure 机器学习 - CORS

我已经搜索了几个小时但找不到任何可以回答这个问题的东西我创建并发布了新的 Azure 机器学习服务并创建了一个终结点我可以使用 Postman REST 客户端调用该服务但通过 JavaScript 网页访问它会返回一个控制台日志
如何以干净高效的方式在 pytorch 中获得小批量？

我试图做一件简单的事情即使用火炬通过随机梯度下降 SGD 训练线性模型 import numpy as np import torch from torch autograd import Variable import pdb def
是否可以使用具有余弦相似度的 KDTree？

看来我不能使用这个相似度度量sklearn例如 KDTree 但我需要因为我正在使用测量单词向量相似度对于这种情况快速鲁棒定制算法是什么我知道关于Local Sensitivity Hashing 但它应该经过大量调整和测试才能找到
sklearn.model_selection.train_test_split 示例中的“随机状态”是什么？ [复制]

这个问题在这里已经有答案了有人能给我解释一下吗random state在下面的例子中意味着什么 import numpy as np from sklearn model selection import train test split
为什么我的精确率-召回率和 ROC 曲线不平滑？

我有一些标记为 0 或 1 的数据我正在尝试使用随机森林来预测这些类别每个实例都标有 20 个用于训练随机森林的特征约 30 000 个训练实例和约 6000 个测试实例我使用以下代码绘制精确召回率和 ROC 曲线 precisio
期望最大化抛硬币的例子

我最近一直在自学期望最大化并在这个过程中给自己举了一些简单的例子 http cs dartmouth edu cs104 CS104 11 04 22 pdf http cs dartmouth edu cs104 CS104 11 04
在逻辑回归中使用排名数据

当我努力学习这些概念时我将对此给予最大赏金我正在尝试在逻辑回归中使用一些排名数据我想使用机器学习来制作一个简单的分类器来判断网页是否好这只是一个学习练习所以我不期望有很好的结果只是希望学习过程和编码技术我已将数据放入 c
Keras Predict_classes 方法返回“列表索引超出范围”错误

我对 CNN 和机器学习总体来说是新手并且一直在尝试遵循 TensorFlow 的图像分类教程现在可以找到Google Colabhere https colab research google com drive 1gwZp7 t
sklearn：如何在 sknn 中重置回归器或分类器对象

我定义了一个回归器如下所示 nn1 Regressor layers Layer Rectifier units 150 Layer Rectifier units 100 Layer Linear regularize L2 dropo
如何使用 Keras 中的 Conv2D 在 5D 张量的最后三个维度上应用卷积？

通常的输入张量Conv2DKeras 中是一个 4D 张量其维度为batch size n n channel size 现在我有一个 5D 张量其尺寸为batch size N n n channel size我想对中的每个 i 应用
多输出回归问题的多重损失

所以我试图训练一个 CNN 模型来预测 4 个实值输出回归问题我尝试使用均方误差作为损失函数我的问题是我是否将输出层分支为 4 个不同的输出层其中有 4 个不同的输出层由于最后一层的权重是单独更新的 loss 4 MSE 确实可以使
为什么 scikit learn 的平均精度分数返回 nan？

我的 Keras 模型旨在接收两个输入时间序列将它们连接起来通过 LSTM 提供它们并在下一个时间步骤中进行多标签预测有 50 个训练样本每个样本有 24 个时间步每个样本有 5625 个标签有 12 个验证样本每个样本有
如何在 python 中使用 libSVM 计算精度、召回率和 F 分数

我想计算precision recall and f score using libsvm在Python中但我不知道如何我已经发现这个网站 http www csie ntu edu tw cjlin libsvmtools eval

随机推荐

实现领域驱动设计----第六章

当你决定以恶搞领域概念是否是一个值对象时你需要考虑他是否拥有以下特征它度量或者描述了领域中的一件东西它可以作为不变量它将不同的相关的属性组合成一个概念整体当度量和描述改变时可以用另一个值对象予以替换它可以和其他值对象进行相等性
【SpringBoot】还不会SpringBoot项目模块分层？来这手把手教你

文章目录前言缘由本文阅读时长主要目标试用人群快速链接水图正文 1 IDEA新建项目 2 创建子模块 dependencies 依赖层重点 3 创建子模块 main 主启动层重点 4 创建子模块 module 模块层 5
Eclipse关于搭建JSP运行环境（超级详细过程附带网页地址）

1 下载jdk 2 配置环境变量 3 下载安装Tomcat 4 下载安装Eclipse 5 配置Eclipse运行第一个JSP程序一下载jdk 百度地址栏搜索https www oracle com java technologies
js替换字符串中的空格，换行符\r\n或\n替换成

为了让回车换行符正确显示需要将 n 或 r n 替换成 br 同样地将空格替换存 nbsp 这里我们通过正则表达式来替换一替换所有的空格回车换行符原始字符串 var string 欢迎访问 r nhangge com 做最好的开
Linux_8_磁盘存储和文件系统

1 磁盘结构 1 1 设备文件一切皆文件 open read write close 设备文件关联至一个设备驱动程序进而能够跟与之对应硬件设备进行通信设备号码主设备号 major number 标识设备类型次设备号 minor
A*寻路算法浅析

最近刚接触A 寻路算法听说是一种比较高效的自动寻路的算法当然事实也正是如此这么好的东西自然是要收入囊中的说不定什么时候也能派上用场呢为了学习这个也是上网找了好多资料看了好多博客但是貌似有些关键点没有具体说明所以自己也是
understand - 笔记

术语 Terminology Architecture 层级 An architecture is a hierarchical aggregation of source code units entities An architectu
用vb语言编写一个抄底的源代码程序实例

以下是一个基于通达信软件编写的简单抄底源代码程序用于自动识别股票的底部形态并发出买入信号 vbs 复制导入通达信软件自带的股票数据接口 Dim TdxApi Set TdxApi CreateObject TdxApi TdxLocal
Winform自定义控件 —— 指示灯

在开始阅读本文之前如果您有学习创建自定义控件库并在其他项目中引用的需求请参考在Visual Studio中创建自定义Winform控件库并在其他解决方案中引用https blog csdn net YMGogre article de
Rx Java 异步编程框架

Rx Java 文章目录 Rx Java 名词定义举个例子基本概念 Backpressure Upstream Downstream Objects in motion Assembly time Subscription time R
Cocos2d-x使用Luajit将Lua脚本编译为bytecode，从而实现加密

项目要求对lua脚本进行加密查了一下相关的资料得知lua本身可以使用luac将脚本编译为字节码 bytecode 从而实现加密试了一下确实可行下面是使用原生的lua解释器编译字节码 1 新建一个名为1 lua的文件里面只有一句话
带宽与码元的关系_带宽、速率(波特率、比特率)和码元宽度简述

首先弄清楚带宽和速率的关系信道带宽与数据传输速率的关系可以奈奎斯特 Nyquist 准则与香农 Shanon 定律描述奈奎斯特准则指出如果间隔为 2 f 通过理想通信信道传输窄脉冲信号则前后码元之间不产生相互窜扰因此对于二进制数
【云原生之Docker实战】使用Docker部署web端vscode

云原生之Docker实战使用Docker部署web端vscode 一 vscode server介绍二检查本地docke环境 1 检查系统版本 2 检查docker版本 3 检查docker状态三下载vscode镜像四部署vs
北京理工大学：《Python语言程序设计》详细笔记

第一章程序设计基本方法计算机与程序设计计算机是根据指令操作数据的设备计算机发展参照摩尔定律表现为指数形式编译和解释计算机执行源程序两种方式编译和解释编译将源代码一次性转换成目标代码的过程执行编译过程的程序叫编译器 co
C#是不是不能把基类对象强转成它派生类对象

转载请标明是引用于 http blog csdn net chenyujing1234 有补充的请大家指出最近在论坛上看到有网友问到C 中对象强转的问题自己虽然接触过C 但对这个特性还是第一次接触所以这里找到一些资料与大家一起分享
unity 模仿原神的人物移动和镜头变换

unity 模仿原神人物移动和镜头转换自学了几周unity了感觉还是要做点什么上手才快所以先做个简单的RPG游戏吧然后很快就做出了CS那种第一人称视觉的人物操控不过感觉体验不太好不能边走边看周围所以重新模仿了原神那种可以环绕人
3D建模教程分享

全套3D建模教程让你从小白到大神工欲善其事必先利其器目前主流的3D建模软件当然是3DMAX MAYA还有ZBrush了开始学习之路前这三个软件肯定是必备的欢迎大家加入Q裙 939901947 领取各种学习资料和软件迈出成为大神的第
linux系统创建新用户

一般情况下linux系统创建删除新用户主要有以下几种方式 1 创建新用户 useradd 用户名删除用户 userdel 用户名 2 sudo useradd m 用户名删除用户 sudo userdel r 用户名可以直接删掉用户
联想笔记本插入耳机仍外放--解决方式

1 打开控制面板 2 点击硬件和声音 3 点击realtek音频管理器 4 点击设备高级设置 5 选中第二项 6 点击确定关闭所有窗口即可解决该问题
数学在机器学习中的重要性

数学在机器学习中的重要性 by Dahua Lin Linear Algebra 线性代数和 Statistics 统计学是最重要和不可缺少的这代表了Machine Learning中最主流的两大类方法的基础一种是以研究函数和变换为

数学在机器学习中的重要性

数学在机器学习中的重要性[by Dahua Lin]

数学在机器学习中的重要性 的相关文章

随机推荐

热门标签

数学在机器学习中的重要性的相关文章