余弦衰减学习率与linear warmup结合版代码

2023-05-16

以下代码摘自tensorflow官方tpu仓库

def cosine_learning_rate_with_linear_warmup(global_step,
                                            init_learning_rate,
                                            warmup_learning_rate,
                                            warmup_steps,
                                            total_steps):
    """Creates the cosine learning rate tensor with linear warmup."""
    global_step = tf.cast(global_step, dtype=tf.float32)
    linear_warmup = (warmup_learning_rate + global_step / warmup_steps *
                   (init_learning_rate - warmup_learning_rate))
    cosine_learning_rate = (
        init_learning_rate * (tf.cos(
            np.pi * (global_step - warmup_steps) / (total_steps - warmup_steps))
                              + 1.0) / 2.0)
    learning_rate = tf.where(global_step < warmup_steps,
                             linear_warmup, cosine_learning_rate)
    return learning_rate

五个参数的含义，直接看图吧，代码瞅一眼也简单
在这里插入图片描述
在 warmup阶段，学习率从 warmup_learning_rate 变为 init_learning_rate，该阶段中学习率是线性递增或递减的

在余弦衰减阶段，学习率是这样衰减的：

l r = c o s ( g l − w t − w π ) + 1 2 ∗ i n i t _ l e a r n i n g _ r a t e lr = \frac{ cos \left ( \frac{gl-w} {t-w} \pi \right ) + 1 }{ 2 } * init\_learning\_rate lr=2cos(t−wgl−wπ)+1∗init_learning_rate

c o s cos cos中的变量：

g l gl gl 是 g l o b a l _ s t e p global\_step global_step
w w w 是 w a r m u p _ s t e p s warmup\_steps warmup_steps
t t t 是 t o t a l _ s t e p total\_step total_step

衰减曲线如下图蓝色框中的部分所示：
在这里插入图片描述
下降程度先逐渐加快，之后逐渐变慢，收敛到一个很小的值

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

余弦衰减学习率与linear warmup结合版代码的相关文章

逻辑回归(LogisticRegression)算法及简单案例

逻辑回归 LogisticRegression 算法及简单案例大家好 xff0c 我是W 逻辑回归虽然名字有回归 xff0c 但是实际上是分类模型 xff0c 常用于二分类回归的意思是 xff1a 在二维空间中找到一条最佳拟合直线去拟合
[CentOS入门]（三）文件系统

Linux文件系统结构树 xff1a 目录中颜色的含义 xff1a 青色 xff1a 指向另外一个位置 xff0c 软连接 ls显示文件夹中的文件链接指向位置 xff1a ls folder l蓝色 xff1a 一个文件夹绿色 xff1a
[CentOS入门]（四）编辑器

vim xff1a vi vim是一种Linux自带的文本编辑器 xff0c 也是常用的文本编辑器之一 xff0c vim相对于vi增加了代码颜色等功能部分Linux最小化安装时会预装vi xff0c 但不包含vim xff0c 手动安装
[CentOS入门]（五）系统软件管理

RPM RPM是由红帽开发 xff0c 用于管理软件包的组件 xff0c 但是其原始设计理念是开放式的 xff0c 包括OpenLinux S u S E 以及Turbo Linux等Linux的分发版本都有采用 rpm是软件的最小单位 r
[CentOS入门]（六）用户、组、权限

用户 xff1a 用户ID为0的用户为超级用户 xff0c 0 500之间为系统级用户 xff0c 为服务保留 xff0c 通常情况新建的用户UID gt 500 用户文件保存在 etc passwd文件中组 xff1a 每个用户有一个私
Traccar记录足迹-服务搭建及使用

Traccar介绍 Traccar是一款开源的可以跟踪GPS设备位置的应用 xff0c 服务端支持Windows x64 Linux x64 Linux ARM 客户端支持GPS设备 Android设备 IOS设备搭建Traccar服务器
[网络]OSPF理论

特性 xff1a 分类 xff1a 无类 xff0c 链路状态协议封装 xff1a ip xff08 89 xff09 更新目标地址 xff1a 224 0 0 5 224 0 0 6 支持单播更新方式 xff1a 定时完整定时更新 xf
[网络]IPV6

IPV6优势 xff1a 更大地址空间 xff08 2 128 xff09 端到端的全球可达性层次化编址利于聚合 xff08 每个运营商一个地址块 xff09 组播的使用 xff08 Server传播一份流量 xff0c 通过组播扩散到用户
Proxmox VE(PVE)+ceph+物理网络规划-超融合生产环境安装部署案例

1 Proxmox Virtual Environment介绍 Proxmox VE 是用于企业虚拟化的开源服务器管理平台它在单个平台上紧密集成了KVM虚拟机管理程序和LXC xff0c 软件定义的存储以及网络功能借助基于Web的集成用
[XPlane11/12]同步更新Zibo737插件下载-更新至3.54.17-插件搬运

Boeing B737 800X mod 链接中包括XPlane11和XPlane12版 XPlane11版本已更新至3 54 17 xff1b XPlane12版本已更新至2 1 一下载链接 xff1a 捐助ZIBOmod xff1a
Proxmox VE(PVE)备份组件：PBS(Proxmox Backup Server)部署及使用教程

1 Proxmox Backup Server xff08 pbs xff09 介绍 Proxmox Backup Server xff08 pbs xff09 是与pve配套的备份解决方案 xff0c 用于备份和恢复虚拟机容器和物理主机
maven mirror

lt mirror gt lt id gt UK lt id gt lt name gt UK Central lt name gt lt url gt http uk maven org maven2 lt url gt lt mirro
1002 A+B for Polynomials (25分)

题目大意输入两行 xff0c 每行格式如上 xff0c K为多项式中非零项的个数 xff0c N为指数 xff0c aN为该项的系数最后输出两个多项式的和思路 xff1a 用一个结构体数组 ploy xff0c 数组中的每个元素存储该
linux/unix 使用airport

把airport引入到用户命令里 xff0c 建立一个软连接 span class hljs built in sudo span ln span class hljs operator s span System Library Priv
网页中提取SWF游戏文件及运行修改

1 下载游戏到本地以4399游戏为例首先需要找到游戏页面如下 xff1a
k8s快速部署，附带脚本

内容导航 xff08 一 xff09 资产信息 xff08 二 xff09 脚本内容 xff08 三 xff09 网络插件flannel1 xff0c 使用flannel网络插件2 xff0c 修改网络模式为ipvs xff0c svc无法
pandas处理大文件

目录思路一 xff1a 分而治之思路二 xff1a 精简数据 demo 思路一 xff1a 分而治之分而治之 xff0c 分批次加载大文件 xff0c 每次读取一定行数的数据 xff0c 读一批处理一批此方法简单有效 xff0c 易
C++详解：枚举类型 --- enum | Xunlan_blog

文章目录一概念二定义枚举元素表三定义枚举对象的操作四要点 amp 技巧实例一概念枚举类型 enumeration xff0c 是C 43 43 中的一种派生数据类型 xff0c 是用户创建的一个集合 xff0c 可以增加
使用vue3+axios和后端交互时无法改变的data中的数据

今天在编写前端页面的时候 xff0c 打算引入axios进行ajax请求 xff0c 可以在这个过程中遇到了一个非常大的坑 xff0c 先来看看有坑的代码我们看一下浏览器端的console的打印情况可以看到 xff0c 第二次打印thi
Ubuntu20.04搜狗输入法官方安装指南实操

前言 linux下也想用已经熟悉的搜狗输入法 xff0c 于是乎 xff0c 在网上查各种教程 xff0c 发现很多都不能成功 xff0c 在要放弃的时候 xff0c 下面这个链接帮助自己完成了这个任务 xff1a 官方教程 xff1a U

随机推荐

国王游戏——c++实现

题目描述恰逢 H 国国庆国王邀请 n 位大臣来玩一个有奖游戏首先他让每个大臣在左右手上面分别写下一个整数 xff0c 国王自己也在左右手上各写一个整数然后 xff0c 让这 n 位大臣排成一排 xff0c 国王站在队伍的最前面
正确打开db文件的方式，避免乱码和无意义内容

db文件如果用记事本或者Notepad 43 43 打开 xff0c 会显示乱码 xff0c 改变编码不能解决问题 xff0c 如果用UltraEdit打开 xff0c 可以看到进制数据 xff0c 但是无意义的正确的方法有多种 xff1
深度优先搜索——枚举组合

所谓枚举组合 xff0c 其实就是从若干个选若干个数比如x 1 x 2 x 3 x 4 x n 每个数字时0 xff08 不选 xff09 和1 xff08 选 xff09 x表示当前选到第几个书 xff0c dep表示选了几个数对于每
更新个祥硕ASM1153E开卡转接板的固件，详细教程

固态硬盘开卡需要使用USB转接板连接电脑 xff0c 使用那些未经验证的普通硬盘盒开卡 xff0c 经常会碰到一些千奇百怪的错误而导致开卡失败 xff0c 专用开卡板可以让你少走很多弯路注意 xff1a 目前sata转usb的桥接芯片
Android获取OAID

目录写在最前面写在前面说明文档 SDK使用过程 xff1a 代码实现写在最前面看评论有好些朋友遇到了一些我没遇到的问题 xff0c 而且看官方文档也已经更新 xff0c 想着这些问题官方是不是已经优化解决了 xff0c 就按着最新
Java基础——隐式转换vs强制转换

在定义变量时 xff0c 有许多要注意的问题 xff0c 一不小心就会出现损失精度或者不兼容类型等问题例如 xff1a 1 定义长整型数据时 xff0c 必须加后缀 l 或 L long l 61 123456789012345L 2 定
【Open CASCADE -生成MFC和QT事例方式】

源代码目录 adm目录 xff1a 包含编译OCCT的相关工程 adm cmake目录 xff1a 包含使用CMake构建OCCT的相关处理脚本 adm msvc目录 xff1a 包含window平台 Visual C 43 43 2010
Kotlin学习笔记八、Kotlin简单控件的使用

1 按钮Button xff1a Button是Android最常用的控件之一其用法我们这里主要是关注三个方面 xff0c 一是点击事件 xff0c 二是长按事件 xff0c 三是设置文本点击背景效果等等其中点击事件和长按事件用法上跟
java代码实现将spark数据集json字符串转为具体对象

依赖引入 span class token generics span class token punctuation lt span dependency span class token punctuation gt span span
飞桨: Error: op accuracy does not have kernel for data_type[int64_t]:data_layout[ANY_LAYOUT]:place

当前版本的paddle是1 7 老铁们大家来看看完整的报错是不是这个 Error op accuracy does not have kernel for data type int64 t data layout ANY LAYOUT
adobe AE: 磁盘缓存文件夹所在的驱动器没有足够的可用空间来安全存储在首选项中指定的全部量

看着挺玄乎 xff0c 就是说 xff0c 该软件要求性能高 xff0c 你现在没用足够的磁盘空间给我缓存其默认为C盘 xff0c 故而大部分笔记本电脑可能不满足所以我们换一个目录就行了在其他盘新建一个文件夹选择即可 xff0c 但别
TypeError: `method` object is not subscriptable

今天遇到一个特别尴尬的问题 xff1a TypeError span class token punctuation span span class token string 39 method 39 span span class tok
教授、研究员、高级工程师、工程师，各系列职称体系对比

教授研究员高级工程师工程师 xff0c 各系列职称体系对比 xff1a 我找了好久 xff0c 终于找到一个全的 xff1a 一 xff1a 高校教育系列一般是即从事教学又从事科研的教师系列职称分为四级助教 xff0c 讲师 xf
C - 瑞神打牌（不支持C++11；G++和C++编译器都试试！） POJ - 1786

题目牌局由四个人构成 xff0c 围成一圈我们称四个方向为北东南西对应的英文是North xff0c East xff0c South xff0c West 游戏一共由一副扑克 xff0c 也就是52张构成开始 xff0c 我
Linux安装CUDA GCC版本不兼容

环境KALI 我估计Ubuntu也是一样的当前NVIDIA驱动版本 455 23 05 GCC版本 xff1a Debian 10 2 0 15 老铁们一定是这样操作的 xff1a span class token function su
LINUX设置临时路径

有时候需要设置下临时路径以方便使用 xff0c 在逛github FCOS配置的时候看到了这种使用方式 xff0c 觉得蛮有用的 xff0c 分享给大家 xff1a span class token function export span
CUDA kernel errors might be asynchronously reported at some other API call,so the stacktrace below m

UPDATE 2023 01 11 我觉得评论区的方法比我的方法更加简单 xff0c 建议诸位老铁先看评论区 xff1a 好兄弟们看看是不是这个错 xff1a RuntimeError span class token punctuatio
TensorRT windows10 安装过程记录

这俩天摸鱼玩耍有些多比平时多 xff0c 电脑另一台有双系统的忘了带着了我的环境和代码都在那台机子上呢彳亍口巴 xff0c windows 上新配置一个TensorRT环境咱就根据官方指南 TensorRT 8 4 1 来搞 x
找不到 cl.exe 解决办法

本篇适用于由于安装VS全家桶失误 xff0c 导致确实没有 cl exe xff0c 而不是有cl exe xff0c 但是没找到的情况哈 xff08 当然 xff0c 后边有添加到环境变量中的方法 xff09 cl exe 是一种工具 x
余弦衰减学习率与linear warmup结合版代码

以下代码摘自tensorflow官方tpu仓库 span class token keyword def span span class token function cosine learning rate with linear war

余弦衰减学习率与linear warmup结合版代码

余弦衰减学习率与linear warmup结合版代码 的相关文章

随机推荐

热门标签

余弦衰减学习率与linear warmup结合版代码的相关文章