Model-Agnostic Meta-Learning （MAML）模型介绍及算法详解

2023-05-16

整理自：

Frank Tian 回答

首先，我们先从Meta Learning的概念说起。

原始的机器学习的流程被认为是下面这这样的：

也就是我们根据我们先验知识设计网络架构和参数初始化方法，从Training Data 中得到参数的梯度，使用一阶条件调整参数。

因为网络架构已经是提前设计好的，我们学习的最终输出其实就是参数。

图中红框内的都是人类之前设计好的，Meta Learning 的目标就是学习这些是如何设计的。

Meta Learning的任务是输入，现阶段成熟的方法一般默认这些任务是同类的。例如图像分类。

输入的训练集可以是十个图像分类任务，这些任务有自己的训练集和测试集，但是我们在这里称为 Support Set 和 Query Set

而测试集可以是两个额外的任务，当然他们也有自己的Support set 和 Query set。

Machine Learning 的训练和测试数据如下：

Meta Learning 的训练和测试数据如下：

在 Machine Learning 中我们定义损失函数为 l = L ( f ) l = L(f) l=L(f) , f f f 表示这个模型，损失函数 L L L 是一个泛函，通常我们用测试数据经过模型的输出和原来的label的差异作为损失函数的估计。

而Meta Learning中，我们用这些 l l l 的和，估计Meta Learning的损失：

L ( F ) = ∑ i = 0 N l n L(F) = \sum_{i=0}^{N} l^n L(F)=i=0∑Nln

在Meta Learning中，我们常用Omniglot作为数据集训练，Omniglot有1623个characters，每个character有20个examples。

characters如下：

而examples指的是同样一个character经过不同的人写出来的结果：

Mate Learning的任务被称为N-ways K-shot classification，N指的是有多少个类别，K指的是每个类别有多少个sample。

Meta Learning常常和Few-shot Learning一起出现，Few-shot Learning指的是样本特别少的Machine Learning。

例如一个20-ways 1-shot classification，就是一共有20个类别，每个类别只有一个训练样本。往往这样的问题用传统的Machine Learning是很难解决的。20-ways 1-shot classification的一个例子如下：

Support set：

Query set：

而MAML就是一种决定如何初始化参数的方法。

它默认要求了不同任务的网络模型是一样的，更确切的说，它没有“根据训练集生成初始化参数”的能力，它对所有任务的初始化参数是相同的。

也就是说，它其实是找到了对于所有的任务，最好的一种参数初始化的方法。并让所有任务都按照这种方法进行参数初始化。

这当然要求模型的结构是相同的了，不然根本没有办法使用同样的参数。

我们设初始化的参数为 ϕ \phi ϕ，每个任务的模型一开始的参数都是 ϕ \phi ϕ，经过训练后，参数就会变成 θ ^ n \hat{\theta}^n θ^n ，而用 l n ( θ ^ n ) l^n(\hat{\theta}^n) ln(θ^n)表示每个任务的损失。

那么，对于这个Meta Learning而言，整体的损失函数应该是 ϕ \phi ϕ 的函数：
L ( ϕ ) = ∑ n = 1 N l n ( θ ^ n ) L(\phi) = \sum_{n=1}^{N} l^n(\hat{\theta}^n) L(ϕ)=n=1∑Nln(θ^n)

当然如果我们把 ϕ \phi ϕ 看作参数， L L L 就是函数，把 ϕ \phi ϕ 看作函数， L L L 就是泛函，不过问题不大。而对于单一的一个任务而言， ϕ \phi ϕ 被视为超参数。

回忆一下我们之所以能很有效的调节参数，而没办法高效的调节超参数，就是因为我们没办法计算超参数的梯度，而MAML则是基于一些假设，使我们可以计算 ϕ \phi ϕ 的梯度。

一旦我们可以计算 ϕ \phi ϕ 的梯度，就可以直接更新 ϕ \phi ϕ ：
ϕ ← [ ϕ − η ▽ ϕ L ( ϕ ) ] \phi \leftarrow [\phi - \eta\bigtriangledown_{\phi } L(\phi ) ] ϕ←[ϕ−η▽ϕL(ϕ)]
而所谓的假设即是：每次训练只进行一次梯度下降。

这个假设听起来不可思议，但是却也有一定的道理，首先我们只是在Meta Learning的过程中只进行一次参数下降，而真正学习到了很好的 ϕ \phi ϕ 之后自然可以进行多次梯度下降。

只考虑一次梯度下将的原因有：

Meta Learning会快很多 ;
如果能让模型只经过一次梯度下降就性能优秀，当然很好 ;
Few-shotlearning的数据有限，多次梯度下降很容易过拟合 ;
刚才说的可以在实际应用中多次梯度下降.

如果只经历了一次梯度下降，模型最后的参数就会变成：
θ ^ = θ − ϵ ▽ ϕ l ( ϕ ) \hat{\theta} = \theta - \epsilon\bigtriangledown_{\phi }l(\phi ) θ^=θ−ϵ▽ϕl(ϕ)

当然因为 l l l 的不同，最后不同任务的 θ ^ \hat{\theta} θ^ 也会不一样，准确来说应该是：
θ ^ n = θ − ϵ ▽ ϕ l n ( ϕ ) \hat{\theta}^n = \theta - \epsilon\bigtriangledown_{\phi }l^n(\phi ) θ^n=θ−ϵ▽ϕln(ϕ)

现在我们已经有 L ( ϕ ) = ∑ n = 1 N l n ( θ ^ n ) L(\phi) = \sum_{n=1}^{N} l^n(\hat{\theta}^n) L(ϕ)=∑n=1Nln(θ^n)，下一步就是计算 θ \theta θ 关于 L L L 的梯度。

我们有：

▽ ϕ L ( ϕ ) = ▽ ϕ ∑ i = 1 N l n ( θ ^ n ) = ∑ n = 1 N ▽ ϕ l n ( θ ^ n ) \bigtriangledown_{\phi}L(\phi) = \bigtriangledown_{\phi}\sum_{i=1}^{N} l^n(\hat{\theta}^n)=\sum_{n=1}^{N}\bigtriangledown_{\phi} l^n(\hat{\theta}^n) ▽ϕL(ϕ)=▽ϕi=1∑Nln(θ^n)=n=1∑N▽ϕln(θ^n)

现在的问题是如何求 ▽ ϕ l n ( θ ^ n ) \bigtriangledown_{\phi} l^n(\hat{\theta}^n) ▽ϕln(θ^n) ，略去上标 n n n，有：

▽ ϕ l ( θ ^ ) = [ ∂ l ( θ ^ ) ∂ ϕ 1 ∂ l ( θ ^ ) ∂ ϕ 2 ⋮ ∂ l ( θ ^ ) ∂ ϕ i ⋮ ] \bigtriangledown_{\phi} l(\hat{\theta})=\left[ \begin{matrix} \frac{\partial l(\hat{\theta})}{\partial \phi_1}\\ \frac{\partial l(\hat{\theta})}{\partial \phi_2}\\ {\vdots}\\ \frac{\partial l(\hat{\theta})}{\partial \phi_i}\\ {\vdots} \end{matrix} \right] ▽ϕl(θ^)=⎣⎢⎢⎢⎢⎢⎢⎢⎢⎡∂ϕ1∂l(θ^)∂ϕ2∂l(θ^)⋮∂ϕi∂l(θ^)⋮⎦⎥⎥⎥⎥⎥⎥⎥⎥⎤

注意 l l l 是 θ \theta θ 的函数，而 θ \theta θ 又和每一个 ϕ i \phi_i ϕi 有关，因此有：

∂ l ( θ ^ ) ∂ ϕ i = ∑ j ∂ l ( θ ^ ) ∂ θ ^ j ∂ l ( θ ^ j ) ∂ ϕ i \frac{\partial l(\hat{\theta})}{\partial \phi_i} = \sum_{j}\frac{\partial l(\hat{\theta})}{\partial \hat{\theta}_j} \frac{\partial l(\hat \theta_j)}{\partial \phi_i} ∂ϕi∂l(θ^)=j∑∂θ^j∂l(θ^)∂ϕi∂l(θ^j)
也就是说，每一个 ϕ i \phi_i ϕi 通过影响不同的 θ i \theta_i θi，从而影响到 l l l：

l l l 和 θ \theta θ 的关系是很直接的，我们可以直接求 ∂ l ( θ ^ ) ∂ θ ^ j \frac{\partial l(\hat{\theta})}{\partial \hat{\theta}_j} ∂θ^j∂l(θ^) ，现在的问题是怎么求 ∂ l ( θ ^ j ) ∂ ϕ i \frac{\partial l(\hat \theta_j)}{\partial \phi_i} ∂ϕi∂l(θ^j) 。

注意 ϕ \phi ϕ 和 θ \theta θ 的关系也是显然的：
θ ^ = ϕ − ϵ ∇ ϕ l ( ϕ ) \hat \theta = \phi - \epsilon \nabla_{\phi}l(\phi) θ^=ϕ−ϵ∇ϕl(ϕ)

把向量的形式展开：
θ ^ j = ϕ j − ϵ ∂ l ( ϕ ) ∂ ϕ j \hat \theta_j = \phi_j - \epsilon \frac{\partial l(\phi)}{\partial \phi_j} θ^j=ϕj−ϵ∂ϕj∂l(ϕ)

我们考虑 i ≠ j i \neq j i=j ：
∂ ( θ ^ j ) ∂ ϕ i = − ϵ ∂ l 2 ( ϕ ) ∂ ϕ i ∂ ϕ j \frac{\partial (\hat \theta_j)}{\partial \phi_i} = - \epsilon \frac{\partial l^2(\phi)}{\partial \phi_i \partial \phi_j} ∂ϕi∂(θ^j)=−ϵ∂ϕi∂ϕj∂l2(ϕ)

而当 i = j i = j i=j ：
∂ ( θ ^ j ) ∂ ϕ i = 1 − ϵ ∂ l 2 ( ϕ ) ∂ ϕ i ∂ ϕ i \frac{\partial (\hat \theta_j)}{\partial \phi_i} = 1 - \epsilon \frac{\partial l^2(\phi)}{\partial \phi_i \partial \phi_i} ∂ϕi∂(θ^j)=1−ϵ∂ϕi∂ϕi∂l2(ϕ)

当然到此为止已经把梯度计算出来了，但是在MAML的论文中其实做了简化，它直接不计算二阶条件。
∂ ( θ ^ j ) ∂ ϕ i = − ϵ ∂ l 2 ( ϕ ) ∂ ϕ i ∂ ϕ j ≈ 0 \frac{\partial (\hat \theta_j)}{\partial \phi_i} = - \epsilon \frac{\partial l^2(\phi)}{\partial \phi_i \partial \phi_j} \approx 0 ∂ϕi∂(θ^j)=−ϵ∂ϕi∂ϕj∂l2(ϕ)≈0

∂ ( θ ^ j ) ∂ ϕ i = 1 − ϵ ∂ l 2 ( ϕ ) ∂ ϕ i ∂ ϕ i ≈ 1 \frac{\partial (\hat \theta_j)}{\partial \phi_i} = 1 - \epsilon \frac{\partial l^2(\phi)}{\partial \phi_i \partial \phi_i} \approx 1 ∂ϕi∂(θ^j)=1−ϵ∂ϕi∂ϕi∂l2(ϕ)≈1
那么原来的偏导近似为：
∂ l ( θ ^ ) ∂ ϕ i = ∑ j ∂ l ( θ ^ ) ∂ θ ^ j ∂ l ( θ ^ j ) ∂ ϕ i ≈ ∂ l ( θ ^ ) ∂ θ ^ i \frac{\partial l(\hat{\theta})}{\partial \phi_i} = \sum_{j}\frac{\partial l(\hat{\theta})}{\partial \hat{\theta}_j} \frac{\partial l(\hat \theta_j)}{\partial \phi_i} \approx \frac{\partial l(\hat{\theta})}{\partial \hat{\theta}_i} ∂ϕi∂l(θ^)=j∑∂θ^j∂l(θ^)∂ϕi∂l(θ^j)≈∂θ^i∂l(θ^)
整个梯度就可以近似为：
▽ ϕ l ( θ ^ ) = [ ∂ l ( θ ^ ) ∂ ϕ 1 ∂ l ( θ ^ ) ∂ ϕ 2 ⋮ ∂ l ( θ ^ ) ∂ ϕ i ⋮ ] ≈ [ ∂ l ( θ ^ ) ∂ θ ^ 1 ∂ l ( θ ^ ) ∂ θ ^ 2 ⋮ ∂ l ( θ ^ ) ∂ θ ^ i ⋮ ] = ∇ θ ^ l ( θ ^ ) \bigtriangledown_{\phi} l(\hat{\theta})=\left[ \begin{matrix} \frac{\partial l(\hat{\theta})}{\partial \phi_1}\\ \frac{\partial l(\hat{\theta})}{\partial \phi_2}\\ {\vdots}\\ \frac{\partial l(\hat{\theta})}{\partial \phi_i}\\ {\vdots} \end{matrix} \right] \approx \begin{bmatrix} \frac{\partial l(\hat{\theta})}{\partial \hat\theta_1}\\ \frac{\partial l(\hat{\theta})}{\partial \hat\theta_2}\\ {\vdots}\\ \frac{\partial l(\hat{\theta})}{\partial \hat\theta_i}\\ {\vdots} \end{bmatrix} = \nabla_{\hat\theta}l(\hat\theta) ▽ϕl(θ^)=⎣⎢⎢⎢⎢⎢⎢⎢⎢⎡∂ϕ1∂l(θ^)∂ϕ2∂l(θ^)⋮∂ϕi∂l(θ^)⋮⎦⎥⎥⎥⎥⎥⎥⎥⎥⎤≈⎣⎢⎢⎢⎢⎢⎢⎢⎢⎢⎡∂θ^1∂l(θ^)∂θ^2∂l(θ^)⋮∂θ^i∂l(θ^)⋮⎦⎥⎥⎥⎥⎥⎥⎥⎥⎥⎤=∇θ^l(θ^)
那么整个MAML的过程其实就很简单了：

从 ϕ 0 \phi^0 ϕ0 开始，先用一个batch的任务训练（这里任务就相当于数据了），假设只用了一个任务，即任务m。

那么先用 ϕ 0 \phi^0 ϕ0 作为初始化参数，用task m的数据作为训练集，梯度下降一次，得到了 θ ^ m \hat{\theta}^m θ^m ，这是已经训练好的模型了（我们假设只梯度下降一次）。

然后我们要得到模型关于 θ ^ m \hat{\theta}^m θ^m 的梯度信息，那就再求一次梯度，但是我们就不用这个梯度对 θ \theta θ 梯度下降了，而是对 ϕ \phi ϕ 梯度下降。

不停的计算不同的task的梯度，对 ϕ \phi ϕ 进行更新，就得到了最终的 ϕ \phi ϕ 。

这就是MAML的思想。

参考：

[1] Model-Agnostic Meta-Learning for Fast Adaptation of Deep Networks

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Model-Agnostic Meta-Learning （MAML）模型介绍及算法详解的相关文章

如何在 django 中指定索引类型？（btree 和 hash 对比等）

就像标题所说如何在 django 模型中的字段上指定我想要的索引类型 class Person age models IntegerField db index True 现在怎么办我如何确保它是一个btree index而不是一个ha
为什么我的复选框没有映射到 MVC 模型成员？

我正在尝试实现什么这个答案表明 https stackoverflow com a 10649724 57428但没有将显示名称存储在我的模型代码中所以我相信这是一个单独的问题我有 MVC 视图和一个模型 public class M
使用 dropdownlist 时的 Asp.net mvc ModelState 有效性

ModelState IsValid始终为 false 因为我在要提交的表单中使用下拉列表并且收到此异常 The parameter conversion from type System String to type System We
在 Magento 中以编程方式创建 CMS/页面

我看到了下面这个帖子的回复Magento 静态 CMS 块存储在哪里 https stackoverflow com questions 4932652 where are magento static cms blocks stored关
如何从 model+ModelForm 获取文本区域？

模型 py gt from django db import models from django forms import ModelForm from datetime import date import datetime from
Rails：是否可以向 has_and_belongs_to_many 关联添加额外的属性？

我的意思是如果我有两个模型通过 has and belongs to many 关联连接我可以在每个关联的连接表中存储其他数据吗也就是说额外的数据不会成为任一表中单个记录的一部分而是它们之间的连接我的实际模型如下 class
Rails 如何处理模型中的错误和异常

所以我使用 twitter 库解析 Rails 中 twitter api 的数据有时 api 的响应可能是这样的 error Invalid parameter 模型会引发异常现在我默默地捕获它并将 error message 放入日
f-score：ValueError：分类指标无法处理多标签指标和连续多输出目标的混合

我正在尝试计算模型所做的预测的微 F 测量我使用带有 Keras 和 Tensorflow 的 word2vec 矢量来训练模型我使用 scikit 库来计算 mirco F 度量但该函数会抛出此消息 ValueError Class
asp.net mvc相当于rails回调before_save

您好我正在寻找一个 ASP NET MVC 回调以便在保存模型之前获取详细数据 Rails 中有 before save Thanks 如果您正在使用实体框架您的标签表明那么这个 StackOverflow 帖子 https sta
Django 中级模型用户

我想创建一个模型其中用户拥有多家公司一定数量的股份看来我应该使用 Django 中间模型关系但我不确定如何将中间模型应用到内置 Django 用户模型目前公司与股东用户之间存在多对多关系如何为每个特定的公司股东关系添加股份数
在 Ember 中将模型属性插入 Img 元素 URL

我有一个模型image id财产我有一个包含图像元素的模型视图我需要将 id 插入图像元素的src属性来完成图像的 URL 以便我有效地执行此操作 img src 我的第一次尝试使用了 Handlebars 助手 img src 但这也
Laravel 中如何返回数组而不是集合？

在 Laravel 中可以仅选择一个字段并将其作为集合数组返回例如考虑模型Foo链接到表foos其中有字段id a b c 考虑以下示例数据 1 10 15 20 1 12 15 27 1 17 15 27 1 25 16 29 1
Magento：如何覆盖本地模块中的模型

我试图在本地文件夹中覆盖本地文件夹中的模块但我不知道是否可能这就是我所做的我创建了 local Mycompany Modulename Model Model php 我想覆盖 local Othercompany Modulena
主干关系事件未触发？

class TheModel extends Backbone RelationalModel relations type Backbone HasMany key subModels relatedModel SubModel coll
如何在MVC模型中编写可重用的业务逻辑？

我的问题是我们尝试使用 MVC PHP 框架经过多次讨论后我认为 MVC 非常好但我缺少编写可重用模型应用程序逻辑的可能性因此我不确定我们是否有正确的方法在 MVC 框架中实现我们的软件首先我将描述我们目前使用的非 MVC
如何删除django中级联的一对一相关模型？

背景我在 Django 1 8 5 中定义了以下模型 class PublishInfo models Model pass class Book models Model info models OneToOneField Publis
{“error”：“服务签名名称：在签名定义中找不到“serving_default””}

我使用GCP 谷歌云平台来训练我的模型我可以导出导出的模型我使用了该模型并使用了服务 1 8 CPU 的 Tensorflow 的本地 docker 映像我得到以下结果作为 REST 后调用的输出错误服务签名名称 serving
Rails：仅当满足某些条件时如何运行 before_save？

我有一个 before save 方法我称之为重命名上传的图像 before save randomize file name def randomize file name extension File extname screen f
如何将 django ModelForm 字段显示为不可编辑

接受我的初步教训django ModelForm 我想让用户能够编辑博客中的条目 BlogEntry has a date postedTime title and content 我想向用户展示一个编辑表单其中显示所有这些字段但仅包含
MVVM 在 iOS 中的使用

我是一名 iOS 开发人员我对我的项目中存在大量视图控制器感到内疚因此我一直在寻找更好的方法来构建我的项目并遇到了 MVVM 模型视图视图模型架构我读了很多关于 iOS 的 MVVM 文章但有几个问题我将用一个例子来解释我

随机推荐

centos 6 镜像源不再可用

2020 12 02 centos 停止更新centos 6 xff0c 官网镜像源不可用 http mirror centos org centos 6 6 readme This directory and version of Cen
Linux安装配置vnc

1 检测 vnc有没有安装 rpm qa grep tigervnc 或 rpm qa grep vnc 显示如下信息 xff0c 证明 vnc已经安装 1 1 若未安装 xff0c 安装步骤如下 1 1 1 cd 到 vnc 安装包目录下
shell变量的五种赋值方式

shell变量的赋值https blog 51cto com u 14881361 2673174 一直接赋值格式为 xff1a 变量名 61 变量值 x1f416 直接赋值时禁止在等号 61 两端添加空格 span class to
CommonJS和ES6模块化的区别

ES6 模块与 CommonJS 模块存在以下差异 xff1a 1 语法上 CommonJS 使用的是 module exports 61 导出一个模块对象 xff0c require file path 引入模块对象 xff1b ES6使
bug解决： Cause: org.xml.sax.SAXParseException； lineNumber: 2； columnNumber: 6；不允许有匹配 “[xX][mM][lL]“ 的

Exception encountered during context initialization span class token operator span cancelling refresh attempt span class
云计算基础

待到秋来九月八 xff0c 我花开后百花杀数据中心发展阶段企业自建EDCIDC托管租用云计算三者对比云计算核心特征云计算参考模型云计算的关键特点按需服务资源池化弹性扩展泛网络访问服务可度量云计算服务模式云计算技术架构云计算的4个部署
前端npm或yarn装包踩坑——安装超时失败，设置镜像源不生效

问题描述 xff1a 使用npm或yarn进行安装依赖包时 xff0c 无响应超时 xff0c 随即设置镜像源指向淘宝镜像 xff0c 但始终不生效问题原因 xff1a 无响应网络等原因 xff0c 导致npm或yarn装包失败 xff
Ubuntu中安装ClamAV防病毒软件

环境 Ubuntu 16 04 软件安装 ClamAV http www clamav net documents installing clamav 源码链接 http www clamav net downloads productio
使用Windows远程桌面工具来远程连接控制Ubuntu系统

转载来源 xff1a 使用Windows远程桌面工具来远程连接控制Ubuntu系统 xff1a http www safebase cn article 258275 1 html 介绍有时需要在实际的电脑上安装Ubuntu的操作系统来搭
软件工程简答题和应用题

1 简述软件工程过程的含义目的以及包含的子过程 2 数据字典的作用是什么 xff0c 它有哪些条目 xff1f 3 简述结构化程序设计方法的基本要点 4 简述原型的开发步骤 5 什么是需求规约 xff1f 简述需求规约的基本性质答 xf
MFC用对话框获取输入

题目在MFC调用对话框读入数据 xff0c 并在客户区输出这是计算机图形学基础教程的一个习题 xff1a 使用MFC设计一个长方形类CRectangle xff0c 调用对话框读入长方形的长度和宽度 xff0c 在客户区输出长方形的
openssl 命令行 sm4 加解密

sms4 算法标准数据实例密钥 xff1a 0123456789abcdeffedcba9876543210 明文 xff1a 0123456789abcdeffedcba9876543210 密文 xff1a 681edf34d2069
计算一个神经网络的输出（Computing a Neural Network's output）

计算一个神经网络的输出 xff08 Computing a Neural Network s output xff09 Note 在编程实现一个神经网络的时候 xff0c 有一个注意点就是我们要记得保存每一步计算出来的 z z z 和 a
L2正则化（Regularization）

正则化 xff08 Regularization xff09 深度学习可能存在过拟合问题高方差 xff0c 有两个解决方法 xff0c 一个是正则化 xff0c 另一个是准备更多的数据 xff0c 这是非常可靠的方法 xff0c 但你可能
OpenCV--图像转化为灰度图、HSV图

OpenCV 图像转化为灰度图 HSV图一灰度图以下介绍转载自 xff1a https www cnblogs com xiejiulong p 3821620 html 图像灰度值的概念是什么 xff1f 灰度也可以认为是亮度 xf
python -- 定义函数 def 后面的 -＞，：表示的含义

python 定义函数 def 后面的 gt xff0c xff1a 表示的含义 gt 常常出现在python函数定义的函数名后面 xff0c 为函数添加元数据描述函数返回的类型表示参数的类型建议符示例 xff1a span clas
解决QT 编译QWebEngineWidgets出现错误Project ERROR: Unknown module(s) in QT: webenginewidgets问题

解决QT 编译QWebEngineWidgets出现错误Project ERROR Unknown module s in QT webenginewidgets问题 1 确认你的QT版本号为QT5 4 43 xff0c 在此之后的版本Qt
C++ 类中特殊成员变量（常量、静态、引用）的初始化方法

有些成员变量的数据类型比较特别 xff0c 它们的初始化方式和普通数据类型的成员变量有所不同这些特殊类型的数据类型包括 xff1a 引用 xff08 amp xff09 常量 xff08 const xff09 静态 xff08 stat
自编码器（AutoEnconders：AE）解释

概述自编码器是一种能够通过无监督学习 xff0c 学到输入数据高效表示的神经网络输入数据的这一高效表示 xff08 特征 xff09 称为编码 xff08 Codings xff09 xff0c 其维度一般远小于输入数据 xff0c 使
Model-Agnostic Meta-Learning （MAML）模型介绍及算法详解

整理自 xff1a Frank Tian 回答首先 xff0c 我们先从Meta Learning的概念说起原始的机器学习的流程被认为是下面这这样的 xff1a 也就是我们根据我们先验知识设计网络架构和参数初始化方法 xff0c 从Tr

Model-Agnostic Meta-Learning （MAML）模型介绍及算法详解

Model-Agnostic Meta-Learning （MAML）模型介绍及算法详解 的相关文章

随机推荐

热门标签

Model-Agnostic Meta-Learning （MAML）模型介绍及算法详解的相关文章