AdaCost

2023-11-09

AdaCost算法

参考：《AdaCost Misclassification Cost-sensitive Boosting》

代价敏感：错分类的损失很大的样例。比如新冠肺炎本来是阳性但是被检测出阴性。

Cost-sensitive思想是一种符合实际应用的算法思想。在实际算法应用中，每种分类结果的错误分类代价是不一样的。同时，也可以延伸出每种分类结果正确分类的收益也是不一样的，所以基于此，需要对样本权重更新做一些额外的处理。

AdaCost对比AdaBoost

1. 目的

AdaBoost ：最后结果偏向于容易错分类的样本

AdaCost ：The final voted ensemble will also correctly predict more costly instances.（最后结果偏向于正确分类代价高的样例）

2. 权重更新规则

AdaBoost ：At each round, AdaBoost increases the weights of wrongly classifified training instances and decreases those of correctly predicted instances（在每一epoch，AdaBoost增加错误分类的训练样本的权重，同时减少正确预测样本的权重）

AdaCost ：In AdaCost, the weight updating rule increases the weights of costly wrong classifications more aggressively, but decreases the weights of costly correct classifications more conservatively（在 AdaCost 中，权重更新规则更激进地增加代价高昂的错误分类的权重，但更保守地降低代价高昂的正确分类的权重。通俗的说，对代价高昂的样本的奖励更少，但是惩罚更多）。

3. 权重初始化规则

AdaCost ：代价更高的样本权重初始化一个更大的值

AdaBoost：等权重初始化或者标签数据量少的样本权重更大

AdaCost算法流程

在这里插入图片描述

算法流程中符号的含义:

S：样本空间 D：权重空间 beta：cost更新函数 H(x)：生成的假设，预测结果

同时作者给出算法中的权重D更新的一种可替代计算方法：

在这里插入图片描述

详解AdaCost中的beta更新函数

本文章beta更新规则：we require β_(ci) to be non-decreasing with respect to ci, β+(ci) to be non-increasing, and both are non-negative.（预测为+1时，beta不增加；预测为-1时，beta不减小。而且beta是非负的值）。文章具体实验应用提到：We normalized each c_i to [0, 1] for all data sets. The cost adjustment function β is chosen as: β−© = 0.5 · c + 0.5 and β+© = −0.5 · c + 0.5.（其实beta函数的定义是根据实际问题来灵活定义的。但是总的思想一样：给代价高的样本更高的错误分类惩罚和更低的正确分类奖励）

其他两种beta更新规则：

Karakoulas and Shawe-Taylor: 如果y = +1 则 beta = 1; 如果y = -1 则 beta = v（v < 1）。

Ting and Zheng : 使用不同的错误损失，但是重复使用诱导模型。

（note:这两种更新规则在文章只是简单介绍。以后需要看原论文深入理解）

详解AdaCost中的alpha更新规则

For weak hypothesis h with range [-1,+1] and cost adjustment function β(i) in the range [0,+1], the choice of α is

在这里插入图片描述

AdaCost的算法实现

# -*- coding: utf-8 -*-
# @Use     : AdaCost 算法实现（快速实现，未调试）
# @Time    : 2022/5/30 22:30
# @FileName: adacost.py
# @Software: PyCharm

import numpy as np
from sklearn.preprocessing import MinMaxScaler


class AdaCost:
    """
    使用代价敏感的思想改进AdaBoost算法---AdaCost。,目前实现的是二分类
    """
    def __init__(self, T):
        """
        @param T: 训练迭代次数
        """
        self.T = T

    def fit(self, x: np.array, y: np.array, costs: np.array, create_model):
        """
        @param: train_x : 训练集
        @param: costs : x的代价
        @param: labels : 标签,目前标签是两类，输出假设是-1和1
        @param: model : 学习器模型
        """

        assert (x.shape[0] == costs.shape[0])
        assert (x.shape[0] == y.shape[0])
        sample_num = x.shape[0]
        T = self.T
        # initialize D(weights)
        weights = []
        betas = []
        cost_sum = np.sum(costs)
        for i in range(sample_num):
            weights.append(costs[i] / cost_sum)
        alpha_ts = []
        model_ts = []
        for t in range(T):
            # build model
            model = create_model()
            # train weak learner
            model.fit(x, y, weights=weights)
            # compute weak hypothesis
            h_t = model.predict_proba(x)[:, -1]
            # 论文要求h_t 是 [-1，1]
            h_t = MinMaxScaler(feature_range=[-1, 1]).fit_transform(h_t)
            model_ts.append(model)
            # update betas
            betas = []
            for i in range(sample_num):
                beta_i = self.update_beta(np.sign(y[i] * h_t[i]), costs[i])
                betas.append(beta_i)

            # alpha_t
            alpha_t = self.update_alpha(weights, y, h_t, betas)
            alpha_ts.append(alpha_t)
            Z_t = np.sum(weights)
            # update weights[]
            for i, weight in range(sample_num):
                weights[i] = weights[i] * np.exp(-alpha_t * y[i] * h_t[i] * betas[i]) / Z_t

        return model_ts, alpha_ts

    def predict(self, x, models, alpha_ts):
        """
        模型预测
        @param: x 测试数据
        @param: models: 模型
        @param: alpha_ts:alpha 数组值
        """
        # final hypothesis
        assert (len(models) == len(alpha_ts))
        T = self.T
        f_sum = 0
        for i in range(T):
            h_t = models[i].predict_proba(x)[:, -1]
            # 论文要求h_t 是 [-1，1]
            h_t = MinMaxScaler(feature_range=[-1, 1]).fit_transform(h_t)
            f_sum += alpha_ts[i] * h_t
        h_final = np.sign(f_sum)
        return h_final

    @staticmethod
    def update_beta(sign_value, cost):
        """
        更新beta
        we require  β_(ci) to be non-decreasing with respect to ci,
         β+(ci) to be non-increasing, and both are non-negative.
        """
        assert (sign_value == 1 or sign_value == -1)
        if sign_value == 1:
            beta = -0.5 * cost + 0.5
            return beta
        elif sign_value == -1:
            beta = 0.5 * cost + 0.5
            return beta

    @staticmethod
    def update_alpha(weights: list, y: np.array, h_t: np.array, betas: list):
        """
        更新alpha值。前提条件是要求：
        For weak hypothesis h with range [-1,+1] and
        cost adjustment function β(i) in the range [0,+1]
        """
        assert (len(weights) == y.shape[0] and
                len(weights) == h_t.shape[0] and
                len(weights) == len(betas))
        data_size = len(weights)
        r = 0
        for i in range(data_size):
            r += weights[i] * y[i] * h_t[i] * betas[i]
        alpha = 0.5 * np.log((1 + r) / (1 - r))
        return alpha

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

AdaCost 的相关文章

活动日程&直播预约｜智谱AI技术开放日 Zhipu DevDay

点击蓝字关注我们 AI TIME欢迎每一位AI爱好者的加入直播预约通道关于AI TIME AI TIME源起于2019年旨在发扬科学思辨精神邀请各界人士对人工智能理论算法和场景应用的本质问题进行探索加强思想碰撞链接全球AI学
明日 15:00 | NeurIPS 2023 Spotlight 论文

点击蓝字关注我们 AI TIME欢迎每一位AI爱好者的加入哔哩哔哩直播通道扫码关注AITIME哔哩哔哩官方账号预约直播 1月17日 15 00 16 00 讲者介绍黄若孜腾讯AI LAB游戏AI研究员 2020年复旦大学硕士毕业后
毕业设计：基于深度学习的微博谣言检测系统人工智能

目录前言设计思路一课题背景与意义二算法理论原理三检测的实现最后前言大四是整个大学期间最忙碌的时光一边要忙着备考或实习为毕业后面临的就业升学做准备一边要为毕业设计耗费大量精力近几年各个学校要求的毕设项目越来越难有
【毕业设计选题】复杂背景下的无人机(UVA)夜间目标检测系统 python 人工智能深度学习

前言大四是整个大学期间最忙碌的时光一边要忙着备考或实习为毕业后面临的就业升学做准备一边要为毕业设计耗费大量精力近几年各个学校要求的毕设项目越来越难有不少课题是研究生级别难度的对本科同学来说是充满挑战为帮助大家顺利通过和节省时间
基于卡尔曼的混合预编码技术用于多用户毫米波大规模MIMO系统研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码及文章
手把手教你用 Stable Diffusion 写好提示词

Stable Diffusion 技术把 AI 图像生成提高到了一个全新高度文生图 Text to image 生成质量很大程度上取决于你的提示词 Prompt 好不好前面文章写了一篇文章一份保姆级的 Stable Diffusion
做大模型也有1年多了，聊聊这段时间的感悟！

自ChatGPT问世以来做大模型也有1年多了今天给大家分享这一年后的感悟过去一年应该是AI圈最万千瞩目的一年了大家对大模型 OpenAI ChatGPT AI Native Agent这些词投入了太多的关注以至于有一年的时间好像经
用通俗易懂的方式讲解：使用 LlamaIndex 和 Eleasticsearch 进行大模型 RAG 检索增强生成

检索增强生成 Retrieval Augmented Generation RAG 是一种结合了检索 Retrieval 和生成 Generation 的技术它有效地解决了大语言模型 LLM 的一些问题比如幻觉知识限制等随着 RAG
AI帮助终结全球饥饿问题

全球饥饿问题是牵动人心的头等大事 5月28日是世界饥饿日这一问题更值得关注让人人都能吃饱的想法不仅令人向往而且很快就会变成现实与大多数新事物引进一样对于在控制世界粮食供应这样复杂的任务中AI究竟应该发挥多大的作用人们还踟蹰不前
回望计算机视觉会议ICCV的31年

作者原野寻踪编辑汽车人原文链接 https zhuanlan zhihu com p 670393313 点击下方卡片关注自动驾驶之心公众号 ADAS巨卷干货即可获取点击进入自动驾驶之心全栈算法技术交流群本文只做
『力扣刷题本』:逆波兰表达式求值

大家好久不昂最近 1 个多月罗根一直在备考期末文章发的很少现在已经放寒假啦学习自然也不能拉下毕竟 4 月份就要去参加蓝桥杯了先给自己定个小目标日更 2 篇咳咳下面马上开始讲题一题目给你一个字符串数组 tokens 表
CorelDRAW2024官方中文版重磅发布更新

35年专注于矢量设计始于1988年并不断推陈出新致力为全球设计工作者提供更高效的设计工具 CorelDRAW 滋养并见证了一代设计师的成长在最短的时间内交付作品 CorelDRAW的智能高效会让你一见钟情 CorelDRAW 全称 Co
蒙特卡洛在发电系统中的应用（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码实现
3D点云检测神技 | UFO来了！让PointPillars、PV-RCNN统统涨点！

作者 AI驾驶员编辑智驾实验室点击下方卡片关注自动驾驶之心公众号 ADAS巨卷干货即可获取点击进入自动驾驶之心 3D目标检测技术交流群本文只做学术分享如有侵权联系删文在这篇论文中提出了一个关于在3D点云中检测未
史上最全自动驾驶岗位介绍

作者自动驾驶转型者编辑汽车人原文链接 https zhuanlan zhihu com p 353480028 点击下方卡片关注自动驾驶之心公众号 ADAS巨卷干货即可获取点击进入自动驾驶之心求职交流技术交流群本
基于节点电价的电网对电动汽车接纳能力评估模型研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码数据
考虑光伏出力利用率的电动汽车充电站能量调度策略研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码数据
基于节点电价的电网对电动汽车接纳能力评估模型研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码数据
国产化率100%，北斗导航单日定位4500亿次，外媒：GPS将被淘汰

追赶30年的技术差距国产卫星导航系统北斗开始扬眉吐气数据显示北斗导航目前单日定位量达4500亿次已经获得100多个国家的合作意向甚至国际民航也摒弃以往独宠 GPS的惯例将北斗纳入参考标准对此有媒体直言 GPS多年来的技
对中国手机作恶的谷歌，印度CEO先后向三星和苹果低头求饶

日前苹果与谷歌宣布合作发布了 Find My Device Network 的草案旨在规范蓝牙追踪器的使用在以往苹果和谷歌的生态形成鲜明的壁垒各走各路如今双方竟然达成合作发生了什么事首先是谷歌安卓系统的市场份额显著下滑数年来

随机推荐

mongodb显示：‘mongo‘不是内部或外部命令，也不是可运行的程序或批处理文件

我们在安装完mongodb之后都需要去校验一下是否安装成功一般都用 mongo 去查看我们的mongodb安装是否成功正常情况是这样的但是如果是出现 mongo 不是内部或外部命令也不是可运行的程序或批处理文件我们有两个方法去排查
2023前端面试题及答案整理（Vue）

watch 和 computed 区别 watch 是监听动作 computed 是计算属性 watch 没缓存只要数据变化就执行 computed 有缓存只在属性变化的时候才去计算 watch 可以执行异步操作而 computed
枚举子集复杂度 O(n^3) 证明

困扰多年的问题居然在学习离散数学后的一分钟内得到解决形式化问题为求满足 A B S A sube B sube S A B S 的有序对
解读三大财务报表

三张报表是一体化的报表但在不同的报表里概念之间有些差异大家应该适应此情况这是全球性的问题三张报表实际上是站在两个不同的角度实际上两个体系维度描述了同样的经济活动但它们各自描述经济活动的方式是不一样的
java 枚举数据字典_枚举值当数据字典使用

public interface EnumType enum E TRANCALL AFTER SUBTRAN PROCESS AFTER SUBTRAN PROCESS afterSubtranProcess 子交易处理模板后 Commo
磁盘使用率大于90% 磁盘inode使用率大于90%

线上机器一直再报磁盘使用率大于90 发现 var log 下边有个mail文件很大就直接清理掉 gt mail 但是这个问题反复出现感觉一个没有什么业务的机器怎么磁盘使用率那么大就查了下mail日志文件的形成 ps 发现有好多sen
Tigase开发笔记6：packet流转机制 -> 一条消息（packet）的请求和响应过程解析

初看Tigase的packet内部流转机制一开始不是太明白里面用到了较多的线程代码不太看得懂慢慢的通过一条消息的请求和响应的代码跟踪分析搞清楚了消息流转的过程前言本文使用Tigase Server version 7 0 2 进
[考研数学]概率论难点总结：样本标准差，样本均值，均值的期望和方差，与t分布、卡方分布和F分布的关系及推导

首先需要清楚一件事情样本均值为X拔上面有个棍样本的均值是讲从总体中抽样这些样本的均值而均值是指所有样本的真实均值后面部分很好推导将括号展开后由三部分组成中间的部分为2倍的样本和样本均值的乘积将样本的和变成n倍的样本均值即
MVC ——RouteTable.Routes的使用

public class RouteTable Fields private static RouteCollection instance new RouteCollection Properties public static Rout
ubuntu64位安装交叉编译器出现一些问题

安装交叉编译工具时因为交叉编译工具为32位的而我的ubuntu51 10是64位的使用交叉编译工具时会出错一般是安装 apt get install lib32ncurses5 再有出错就去安装对应的库吧如libstdc so 6
50行代码，实现AI文章生成器，牛逼！

本文共1502字预计阅读时间 3分钟据说 AI 已经可以自动写文章类似的报道屡见不鲜但是 AI 写出来的文章到底是什么样的我想没几个人见识过无意中看到了 Gayhub 上的这个项目全称就是狗屁不通文章生成器英文名字是 Bu
mongovue 导入mysql_【mongo】用户添加、导入数据库、连接VUE

添加用户 1 安装mongo时最好用apt get install 因为这样可以省去很多麻烦比如一些环境变量还有一些文档路径等等的问题 2 确认一下自己的mongodb和mongodb clients的版本要版本一致才可以查看mon
Linux 中power supply软件架构和相关API

一概述电源管理整体上可以分为两个部分一个是电池监控 fuel gauge 另外一个是充放电管理这两部分在内核中也是分为两个驱动来管理 fuelgauge驱动的功能主要是负责向上层Android系统提供当前电池的电量和健康信息等等同
React + MobX - 完全上手指南

React MobX 完全上手指南前言正文 MobX 準備工作 MobX 基本使用 Store Action 組件中 MobX 生效 MobX Decorators MobX Decorators 準備工作使用 MobX Decora
超详细JDK1.8安装教程

1 下载并安装 jdk 8u241 windows x64 JDK 8下载地址 https pan baidu com s 1 DN 5RL0mlURsN8dzYjqgw 提取码 rg5n 可自定义目录之后配置环境变量会用到一直下一步即
QThread使用方法

QThread使用方法昨天不小心看到Qt开发人员 Bradley T Hughes Blog中的一片文章 you are doing it wrong 结果看得头昏脑胀好歹也自学了近1年的Qt 也一直很小心很认真地阅读Qt和manua
Verilog中Case语句

转自 https blog csdn net CLL caicai article details 104395480 实际问题中常常需要用到多分支选择使用if语句导致内容繁琐更明智的做法是使用case语句 case语句是一种多分支选择
七牛云入门使用步骤（图片服务器使用）

登入七牛云官网得到3个比较重要的参数如图 1 sk 2 ak 3 测试域名第一步导入七牛云sdk
数据结构-查找（顺序查找与二分查找的讲解与代码实现）

顺序查找概念从表的另一端开始一次将记录的关键字和给定值进行比较若某个记录的关键字和给定的值相等则查找成功反之则查找失败 ASL 平均查找长度 pi查找概率 ci查找次数 eg 序列1 2 3 查找1的次数为1概率为1 3 2为两次
AdaCost

AdaCost算法参考 AdaCost Misclassification Cost sensitive Boosting 代价敏感错分类的损失很大的样例比如新冠肺炎本来是阳性但是被检测出阴性 Cost sensitive思想是一种符

AdaCost

AdaCost算法

AdaCost对比AdaBoost

1. 目的

2. 权重更新规则

3. 权重初始化规则

AdaCost算法流程

详解AdaCost中的beta更新函数

详解AdaCost中的alpha更新规则

AdaCost的算法实现

AdaCost 的相关文章

随机推荐

热门标签