在实际任务中,数据的不均衡一直是深度学习领域一个不可忽略的问题。常说的长尾效应,说的就是这个问题。少而多的误差,最终造成的结果,是不容忽视的。
长尾效应:在正态分布中,曲线中间凸起的是“头”,两边相对平缓的部分叫做“尾”。对于绝大部分的需求来说,都会集中在中间凸起的“头”处,但是除了“头”,还有两边长长的“尾”。不同于中间的“头”,分布在尾部的需求是个性化的,零散的,少量的需求。这部分需求,构成了一条长长的“尾巴”,所谓的长尾效应就是在于它的数量上。将所有的非流行的市场,累加起来就会形成一个巨大的市场,甚至比主流市场还要巨大。
无论是纯纯的分类任务,还是目标检测中的回归任务,这种不均衡性都一直存在,具体表现为三种形式:
-
类与类之间的数量不均衡;
-
前景与背景之间数量不均衡;
-
简单样本和苦难样本之间的不均衡。
如何在计算损失的时,将最终的loss
值,更能体现大局观,不会被某一面绑架,也不要忽略了某一面的问题?值得探讨
本文就对类似这种不均衡的问题展开讨论,这也是在工作项目中常常会遇到的问题,同时,也是面试官最喜欢问到的问题。
与此同时,在UNet
分割任务中,把目标分割任务的mask
,转化为对像素点的分类任务