是否可以根据批次标签（y_true）分布更新每个批次的学习率？

2024-02-16

编辑：请参阅此问题的结尾以获取解决方案

TL;DR: 我需要找到一种方法来计算每批次的标签分布，并更新学习率。有没有办法访问当前模型的优化器来更新每批的learning_rate？

下面是如何计算标签分布。它可以在损失函数中完成，因为默认情况下损失是批量计算的。在哪里可以执行该代码并且可以访问模型的优化器？

def loss(y_true, y_pred):
    y = math_ops.argmax(y_true, axis=1)
    freqs = tf.gather(lf, y)  # equal to lf[y] if `lf` and `y` were numpy array's
    inv_freqs = math_ops.pow(freqs, -1)
    E = 1 / math_ops.reduce_sum(inv_freqs)  # value to use when updating learning rate

SOLUTION

非常感谢 @mrk 推动我朝着正确的方向解决这个问题！

为了计算每批次标签分布，然后使用该值来更新优化器的学习率，必须......

创建一个自定义 Metric，用于计算每批次的标签分布，并返回频率数组（默认情况下 keras 是按批次进行优化的，因此每批次都会计算指标）。
通过子类化创建一个典型的学习率调度程序keras.callbacks.History class
覆盖on_batch_end调度程序的功能，logsdict 将包含该批次的所有计算指标包括我们的自定义标签分布指标！

创建自定义指标

class LabelDistribution(tf.keras.metrics.Metric):
    """
    Computes the per-batch label distribution (y_true) and stores the array as
    a metric which can be accessed via keras CallBack's

    :param n_class: int - number of distinct output class(es)
    """

    def __init__(self, n_class, name='batch_label_distribution', **kwargs):
        super(LabelDistribution, self).__init__(name=name, **kwargs)
        self.n_class = n_class
        self.label_distribution = self.add_weight(name='ld', initializer='zeros',
                                                  aggregation=VariableAggregation.NONE,
                                                  shape=(self.n_class, ))

    def update_state(self, y_true, y_pred, sample_weight=None):
        y_true = mo.cast(y_true, 'int32')
        y = mo.argmax(y_true, axis=1)
        label_distrib = mo.bincount(mo.cast(y, 'int32'))

        self.label_distribution.assign(mo.cast(label_distrib, 'float32'))

    def result(self):
        return self.label_distribution

    def reset_states(self):
        self.label_distribution.assign([0]*self.n_class)

创建 DRW 学习率调度程序

class DRWLearningRateSchedule(keras.callbacks.History):
    """
    Used to implement the Differed Re-weighting strategy from
    [Kaidi Cao, et al. "Learning Imbalanced Datasets with Label-Distribution-Aware Margin Loss." (2019)]
    (https://arxiv.org/abs/1906.07413)

    To be included as a metric to model.compile
    `model.compile(..., metrics=[DRWLearningRateSchedule(.01)])`
    """

    def __init__(self, base_lr, ld_metric='batch_label_distribution'):
        super(DRWLearningRateSchedule, self).__init__()

        self.base_lr = base_lr
        self.ld_metric = ld_metric  # name of the LabelDistribution metric

    def on_batch_end(self, batch, logs=None):
        ld = logs.get(self.ld_metric)  # the per-batch label distribution
        current_lr = self.model.optimizer.lr
        # example below of updating the optimizers learning rate
        K.set_value(self.model.optimizer.lr, current_lr * (1 / math_ops.reduce_sum(ld)))

Keras 基于损失的学习率自适应

经过一番研究我发现this https://www.kaggle.com/fergusoci/keras-loss-based-learning-rate-scheduler，您也可以为学习率定义另一个函数或值，而不是触发衰减。

from __future__ import absolute_import
from __future__ import print_function

import keras
from keras import backend as K
import numpy as np


class LossLearningRateScheduler(keras.callbacks.History):
    """
    A learning rate scheduler that relies on changes in loss function
    value to dictate whether learning rate is decayed or not.
    LossLearningRateScheduler has the following properties:
    base_lr: the starting learning rate
    lookback_epochs: the number of epochs in the past to compare with the loss function at the current epoch to determine if progress is being made.
    decay_threshold / decay_multiple: if loss function has not improved by a factor of decay_threshold * lookback_epochs, then decay_multiple will be applied to the learning rate.
    spike_epochs: list of the epoch numbers where you want to spike the learning rate.
    spike_multiple: the multiple applied to the current learning rate for a spike.
    """

    def __init__(self, base_lr, lookback_epochs, spike_epochs = None, spike_multiple = 10, decay_threshold = 0.002, decay_multiple = 0.5, loss_type = 'val_loss'):

        super(LossLearningRateScheduler, self).__init__()

        self.base_lr = base_lr
        self.lookback_epochs = lookback_epochs
        self.spike_epochs = spike_epochs
        self.spike_multiple = spike_multiple
        self.decay_threshold = decay_threshold
        self.decay_multiple = decay_multiple
        self.loss_type = loss_type


    def on_epoch_begin(self, epoch, logs=None):

        if len(self.epoch) > self.lookback_epochs:

            current_lr = K.get_value(self.model.optimizer.lr)

            target_loss = self.history[self.loss_type] 

            loss_diff =  target_loss[-int(self.lookback_epochs)] - target_loss[-1]

            if loss_diff <= np.abs(target_loss[-1]) * (self.decay_threshold * self.lookback_epochs):

                print(' '.join(('Changing learning rate from', str(current_lr), 'to', str(current_lr * self.decay_multiple))))
                K.set_value(self.model.optimizer.lr, current_lr * self.decay_multiple)
                current_lr = current_lr * self.decay_multiple

            else:

                print(' '.join(('Learning rate:', str(current_lr))))

            if self.spike_epochs is not None and len(self.epoch) in self.spike_epochs:
                print(' '.join(('Spiking learning rate from', str(current_lr), 'to', str(current_lr * self.spike_multiple))))
                K.set_value(self.model.optimizer.lr, current_lr * self.spike_multiple)

        else:

            print(' '.join(('Setting learning rate to', str(self.base_lr))))
            K.set_value(self.model.optimizer.lr, self.base_lr)


        return K.get_value(self.model.optimizer.lr)




def main():
    return

if __name__ == '__main__':
    main()

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

tensorflow

machinelearning

Math

Keras

是否可以根据批次标签（y_true）分布更新每个批次的学习率？的相关文章

如何使用 python 从嵌套表结构中识别最终父级？

我有下表我的问题是我如何以编程方式识别最终父级以下是通过示例解释的规则 the id 5 0的父母是51 0 身份证号51 0没有父母因此 id5 0的最终父级是51 0 the id 6 0的父母是1 0 身份证号1 0的父母是1
我无法使用 Python 和 Facebook Marketing API 获取所有 Facebook 营销活动的统计信息

我正在尝试检索以下指标 date campaign name impressions clicks spend 在我的 Facebook 帐户中的所有活动中但显然我编写的脚本仅返回某些活动的统计数据而不是全部它仅返回大多数营销活动的营
插入多行并返回主键时 Sqlalchemy 的奇怪行为

插入多行并返回主键时我注意到一些奇怪的事情如果我在 isert 查询中添加使用参数值我会得到预期的行为但是当将值传递给游标时不会返回任何内容这可能是一个错误还是我误解了什么我的sqlachemy版本是0 9 4 下面如何重现错
使用解析将 ** 运算符更改为幂函数？

我的要求是将运算符更改为幂函数例如 1 Input B 2 Output power B 2 2 B 2 T 2 X Output power B 2 我写了下面的正则表达式来解决这个问题 rx r a zA Z0 9 a zA Z0
代码 zip( *sorted( zip(units, error) ) ) 的作用是什么？

对于我的申请units and errors始终是数值列表我尝试用谷歌搜索每个部分的作用并找出了 zip 的第一部分它似乎 ziped list zip units errors 只需将单位和误差配对即可生成一个列表如下所示 uni
计算 for 循环期间的运行总计 - Python

编辑下面是我根据收到的反馈答案编写的工作代码这个问题源于我之前使用 MIT 的开放课件学习 Python CS 时提出的问题在这里查看我之前的问题 https stackoverflow com questions 4990159
Django REST Framework：无法使用视图名称解析超链接关系的 URL

我已经广泛研究了这个相当常见的问题但没有一个修复对我有用我正在 REST 框架中构建 Django 项目并希望使用超链接关系用户可以拥有许多独立的汽车和路线路线是位置的集合这些是我的序列化器 class CarSerialize
Python3如何安装.ttf字体文件？

我想使用 python3 更精确的 Python 3 6 代码在 Windows 10 上安装 ttf 字体文件我用谷歌搜索但我发现的唯一的就是这个使用python在windows上安装TTF字体 https stackoverflow
Python控制台默认十六进制显示

我在 Python 控制台中做了很多工作其中大部分都涉及地址我更喜欢以十六进制形式查看地址 So if a 0xBADF00D 当我简单地输入Python gt a进入控制台查看其值我更喜欢 python 回复0xBADF00D代替1
使用 Twisted Python 的 UDP 客户端和服务器

我想创建一个服务器和客户端使用 Twisted 从网络发送和接收 UDP 数据包我已经用 Python 中的套接字编写了此代码但想利用 Twisted 的回调和线程功能然而我需要 Twisted 设计方面的帮助我想接收多种类型的
Python：动态向对象添加字段

我想知道是否可以动态向对象添加字段例如我希望能够添加如下内容 user object user first name John user last name Smith 当我在 Python 命令行解释器中执行该命令时我得到 Attr
使用主宰器将实时数据发送给客户端

我尝试使用 Flask 的主宰框架以便按照 Flask 代码片段将实时信息发送到客户端浏览器http flask pocoo org snippets 80 http flask pocoo org snippets 80 当我尝试为我的
如何使用子进程打开新的浏览器选项卡？

我正在打开一个新的 IE 窗口 subprocess Popen r os environ PROGRAMFILES Internet Explorer IEXPLORE EXE Call URL 当 IE 关闭时这很好但即使打开它也会生
如何对嵌套函数进行单元测试？ [复制]

这个问题在这里已经有答案了您将如何对嵌套函数进行单元测试f1 在下面的例子中 def f def f1 return 1 return 2 或者需要测试的函数不应该嵌套吗有一个类似的问题这个链接 https stackoverflow
安装python启动文件

我如何安装pythonstartup文件以便它在命令上运行例如python myfile py 我尝试将其安装到我的 home myuserUbuntu的目录但它说我没有足够的权限此外不同的地方交替说它应该全部大写或全部小写前面
如何使用JQuery和Django（ajax + HttpResponse）？

假设我有一个 AJAX 函数 function callpage ajax method get url abc data x 3 beforeSend function success function html IF HTTPRESPO
Flask APScheduler + Gunicorn 工作人员 - 在套接字修复后仍在运行任务两次

我有一个 Flask 应用程序我使用 Flask APScheduler 在我的数据库上运行计划查询并通过 cron 作业发送电子邮件我通过 Gunicorn 使用以下配置运行我的应用程序并通过主管进行控制 program myapp
Django：在单独的线程中使用相同的测试数据库

我正在使用具有以下数据库设置的测试数据库运行 pytests DATABASES default ENGINE django db backends postgresql psycopg2 NAME postgres USER someth
Tensorboard——High-level节点的计算时间与其子节点计算时间的总和不同

继tutorial https www tensorflow org programmers guide graph viz在 TensorFlow 上我试图使用张量板来理解运行时统计数据我发现代表名称范围的高级节点的计算时间不等于其子
无法在 Python 2.4 中解码 unicode 字符串

这是Python 2 4 中的这是我的情况我从数据库中提取一个字符串它包含一个变音的 o xf6 此时如果我运行 type value 它会返回 str 然后我尝试运行 decode utf 8 但收到错误 utf8 编解码器无法解

随机推荐

pandas scatter_matrix 方法的签名

Signature pandas scatter matrix frame alpha 0 5 figsize None ax None grid False diagonal hist marker density kwds None h
如何使用 Storyboard 在 AppDelegate 中使用自定义导航控制器

我有一个关于 AppDelegate 中的 Navigationcontroller 的问题我正在使用故事板如下所示由于使用推送通知我的 AppDelegate 文件中具有以下功能 void application UIApplic
对角循环二维数组

我编写了以下代码来遍历数组的一半对角线 String b a b c d e f g h i public void LoopDiag for int i b length 1 i gt 0 i String temp for int j
当 main() 退出时，分离的线程会发生什么？

假设我正在开始一个std thread进而detach 它所以线程继续执行即使std thread曾经代表它的东西已经超出了范围 Assume further that the program does not have a relia
如何使用 Jackson 将对象转换为具有前导零的整数字段的 JSON？

当我尝试转换具有整数字段的对象时其值为0000 转换后的 JSON 包含0代替0000 我该如何配置杰克逊的ObjectMapper转换0000 to 00000 前导 0 表示八进制数因此 JSON 中的数值不允许有前导零请参阅以下
组合变音符号未使用 unicodedata.normalize (PYTHON) 进行标准化

我明白那个unicodedata normalize将变音符号转换为非变音符号 import unicodedata join c for c in unicodedata normalize NFD u B u0153uf if unic
在上传文件夹中存储图像时出错

我的控制器 Home php
如何用listview实现autocompletetextview？

我从服务器收到响应并使用列表视图显示它它工作正常现在我正在尝试添加自动完成文本视图来按名称搜索项目但是当我运行我的应用程序时它崩溃并显示错误我已经问过这个 Tab1Activity java public class Tab1Ac
如何在没有临时文件的情况下将流从 Web API 传递到 Azure Blob 存储？

我正在开发一个经常发生文件上传的应用程序并且文件大小可能非常大这些文件正在上传到 Web API 然后该 API 将从请求中获取流并将其传递到我的存储服务然后将其上传到 Azure Blob 存储我需要确保 Web API 实例上
类成员变量的decltype，是否被禁止？为什么？

我可以写 int a decltype a b 但是我的编译器 Microsoft Visual Studio 2010 cl版本 16 00 40219 01 禁止我 class A int a decltype a b error C2
我们怎样才能将数组向左旋转呢？

例如我有一个数组 1 2 3 4 5 和一个整数7它会旋转7右边的空格如 4 5 1 2 3 我也有那个数组 1 2 3 4 5 和一个整数 7它会旋转7左边的空格如 3 4 5 1 2 我使用以下方法将数组旋转到右侧 for int i
使用 NodeJS 将文件上传到 Amazon S3

我在尝试将文件上传到 S3 存储桶时遇到问题除了我的文件参数似乎不合适之外一切正常我正在使用 Amazon S3 sdk 从 nodejs 上传到 s3 这些是我的路线设置 var multiparty require connect
不支持在 c 或 c++ 中添加两个指针。为什么？

为什么 C 或 C 不支持两个指针相加当我做 int ptr ptr1 int sum ptr ptr1 C 或 C 会引发错误虽然支持 int diff ptr ptr1 指针包含地址添加两个地址是没有意义的因为你不知道你会指向什
通过关联 update_all

我正在尝试通过关联使用 update all 并且收到 mysql 错误有人知道为什么吗 class Basket lt ActiveRecord Base has many basket items has many articles
有没有实现按键删除并同时获取值？ [复制]

这个问题在这里已经有答案了我正在做一个性能关键的程序一些学术性的东西我希望尽可能地优化不像它证明的这是瓶颈我有一个自定义字典结构 NET 的包装器Dictionary lt gt 并且我会在一个阶段不断地删除项目通过Key价
如何使用按钮触发回调更新？

我刚刚开始使用破折号举个例子here https plot ly dash getting started part 2 interactivity 我想转换下面的破折号应用程序 import dash from dash depende
批处理文件变量范围问题

当尝试创建 dos Windows 7 命令行批处理文件时我遇到了一个奇怪的变量范围问题该文件执行一些字符串操作来创建新的文件路径谁能明白为什么在下面的示例中 OUTPUT FILENAME 变量总是最终为空 echo Enter
Java 8 元空间与堆使用

我有这段代码可以动态生成类并加载它 import javassist CannotCompileException import javassist ClassPool public class PermGenLeak private st
测试覆盖率 React，伊斯坦布尔 -_registerComponent(...)：目标容器不是 DOM 元素

我正在使用 React Redux Webpack 编写一个应用程序我正在使用 karma mocha 构建测试并希望使用 istanbul 进行测试覆盖为了使覆盖范围与业力覆盖范围一起工作我设置了以下内容karma config
是否可以根据批次标签（y_true）分布更新每个批次的学习率？

编辑请参阅此问题的结尾以获取解决方案 TL DR 我需要找到一种方法来计算每批次的标签分布并更新学习率有没有办法访问当前模型的优化器来更新每批的learning rate 下面是如何计算标签分布它可以在损失函数中完成因为默认情况下

是否可以根据批次标签（y_true）分布更新每个批次的学习率？

更多细节

SOLUTION

创建自定义指标

创建 DRW 学习率调度程序

是否可以根据批次标签（y_true）分布更新每个批次的学习率？ 的相关文章

随机推荐

热门标签

是否可以根据批次标签（y_true）分布更新每个批次的学习率？的相关文章