数据的平滑处理函数——log1p和exmp1

2023-10-31

参考: https://blog.csdn.net/qq_36523839/article/details/82422865

          https://docs.scipy.org/doc/numpy-1.13.0/reference/generated/numpy.log1p.html

数据平滑处理 -- log1p( ) 和 exmp1( )

1.  数据预处理时首先可以对偏度比较大的数据用og1p函数进行转化,使其更加服从高斯分布,此步处理可能会使我们后续的分类结果得到一个好的结果。

2. 平滑问题很容易处理掉,导致模型的结果达不到一定的标准,log1p( )能够避免复值得问题 — 复值指一个自变量对应多个因变量

log1p( ) 的使用就像是一个数据压缩到了一个区间,与数据的标准类似。其逆运算就是expm1的函数

由于使用的log1p()对数据进行了压缩,最后需要将预测出的平滑数据进行一个还原,而还原过程就是log1p的逆运算expm1.

log1p = log(x+1)

当x较大时直接计算,当x较小时用泰勒展开式计算
 

上面介绍了两者的概念和方法的优点,下面说说具体的数学含义:
log1p和expm1的功能:

    log1p := log(x+1)      即ln(x+1)

    expm1 := exp(x)-1

log1p函数有它存在的意义,即保证了x数据的有效性,当x很小时(如 两个数值相减后得到x = 10^{-16}),由于太小超过数值有效性,用log(x+1)计算得到结果为0,换作log1p则计算得到一个很小却不为0的结果,这便是它的意义(好像是用泰勒公式来展开运算的,不确定)。

同样的道理对于expm1,当x特别小,exp(x)-1就会急剧下降出现如上问题,甚至出现错误值。

 

在最开始看到这样的处理方式的时候,不是很理解包括为什么是逆运算(一下子没有想到),后来慢慢摸索就优点清晰了,比如为什么两这是逆运算(简单处理):

logx是e为底的对数,e^{x}是e为底的指数,根据对数的规则,再进行变换推导可以得到:

    e^{log_{e}^{x}} = x

可以看到x经过对数的处理后,再经过指数处理再次得到x,这里对两者的逆运算做了简单的介绍。

\text{RMSLE}=\sqrt{\frac{1}{n}\sum_{i=1}^n(\log(x_i+1)-\log(y_i+1))^2}

另外RMSLE(均方根对数误差)会更多的惩罚欠拟合,所以在使用该误差定义时我们也可以用到上面的函数:

    np.loglp计算加一后的对数,其逆运算是np.expm1;
    采用此误差函数时,可以先对原始数据做np.log1p,再使用RMSE。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

数据的平滑处理函数——log1p和exmp1 的相关文章

随机推荐

  • C++之vector和迭代器

    vector的简单使用 1 2 3 4 5 6 7 8 9 10 11
  • 鲸鱼优化算法(WOA)

    一 基本原理 标准 WOA 模拟了座头鲸特有的搜索方法和围捕机制 主要包括 围捕猎物 气泡网捕食 搜索猎物三个重要阶段 WOA 中每个座头鲸的位置代表一个潜在解 通过在解空间中不断更新鲸鱼的位置 最终获得全局最优解 围捕猎物 气泡网捕食 搜
  • python共享单车数据分析_共享单车数据可视化分析(Python/Seaborn)

    项目数据来源于kaggle项目 Bike Share Demand 使用Python对数据进行了可视化分析 共享单车项目分析 页面 01 jpg 共享单车项目分析 页面 02 jpg 共享单车项目分析 页面 03 jpg 共享单车项目分析
  • 用`visibilitychange`事件实现吸睛的十八禁

    18禁 我知道你们都是看这图进来的 但是这个图跟下面的内容没有必然联系 前不久在网上找资料的时候突然发现某个页面的 title 是啥 18 禁 电影 在线观看 突然就心头一紧 是哪个页面咋还自动弹广告页 还是新标签页面打开的 当时我的表情就
  • ddos攻击的简单应急处理办法

    ddos攻击是一种非常常见的黑客攻击服务器手法 根据wiki的说法 拒绝服务攻击 英语 denial of service attack 简称DoS攻击 亦称洪水攻击 是一种网络攻击手法 其目的在于使目标电脑的网络或系统资源耗尽 使服务暂时
  • Tomcat下发布Web项目

    为了可以通过浏览器访问到自己tomcat下的web项目 我们需要先了解以下内容 Web开发概述 1 1WEB通信 WEB采用B S通信模式 通过超文本传送协议 HTTP Hypertext transport protocol 进行通信 通
  • 虚拟服务器是什么?

    虚拟服务器是设置在一个真实服务器群组中的高可扩展性 可用性服务器 服务器群组的体系结构对于终端用户是透明的 连接服务器群组的用户就像一个整体的虚拟服务器 请看下图 真实的服务器和负载均衡器通过高速局域网或地域上分散的广域网相连接 负载均衡器
  • 抖音短视频服务器维护中什么意思,抖音短视频运营的几大误区,新手一定要注意!...

    原标题 抖音短视频运营的几大误区 新手一定要注意 在当下互联网短视频创作热潮中 很多小伙伴都投入了创作抖音视频的道路中 运营创作抖音短视频的道路艰难且长 很多小伙伴也不同程度的进入了各种运营误区中 今天来给大家分享几个比较常见的运营误区 争
  • 2、网络请求的跨域问题(重点)

    跨域信息错误提示 1 在需要网络请求的组件 import axios from axios export default name HelloWorld mounted 网络地址 除去基本地址剩余部分 axios get api Finge
  • 在VS中使用C++编程函数体太长如何快速找到函数体

    关于代码段比较长 嵌套的程序比较多 一时半会找不到函数体 1 Ctrl 组合键可以找到具体的程序的 位置 2 将有关代码段进行折叠 则有关C 代码折叠的方法 1 大纲折叠 具体设置过程为 菜单栏 工具 gt 选项 gt 文本编辑器 gt C
  • Java(对象数组、方法的重载、参数传递、递归、packa、import、封装、构造器、实例变量赋值、javabean、类图)

    对象数组 方法的重载 两同一不同 同一个类 相同的方法名 参数列表不同 参数个数不同 或 参数类型不同 可变参数 2的特例 可变个形参的方法与同一个类中的方法名相同 且与可变个数形参的类型相同额数组不构成重载 sql语句中的可变参数 参数传
  • SpringCloud @FeignClient 注入Spring容器原理

    前言 本文分析 FeignClient注解如何别扫描并注入到spring容器中 重点分析 EnableFeignClients工作原理 由于通过源码分析涉及内容比较多建议根据文章中流程debug调试进行学习 文章涉及 容器刷新模板方法 Co
  • p1m2(二分)

    题目 2018百度之星 http acm hdu edu cn showproblem php pid 6383 二分 操作次数满足有序性 用二分 代码 include
  • typeid详解

    在揭开typeid神秘面纱之前 我们先来了解一下RTTI Run Time Type Identification 运行时类型识别 它使程序能够获取由基指针或引用所指向的对象的实际派生类型 即允许 用指向基类的指针或引用来操作对象 的程序能
  • 经纬恒润再次入选教育部产学研合作协同育人企业

    近日 教育部高等教育司组织的产学合作协同育人项目组公布了2023年度产学合作协同育人项目指南通过企业名单 经纬恒润再次入选 此次共获批37个项目 其中有25个师资培训项目 12个实践条件建设和实践基地建设项目 产学合作协同育人项目由教育部高
  • es--基础--02--安装与启动

    es 基础 02 安装与启动 1 简单安装与启动 1 1 下载安装包 cd usr local java elasticsearch wget https artifacts elastic co downloads elasticsear
  • 《剑指offer第二版》面试题14:剪绳子

    感谢大佬 参考的是他的笔记才懂了这题 他写的真的很好 感谢感谢 题目 给你一根长度为 n 的绳子 请把绳子剪成整数长度的 m 段 m n都是整数 n gt 1并且m gt 1 每段绳子的长度记为 k 0 k 1 k m 1 请问 k 0 k
  • 卡内基梅隆大学(CMU)的Eric Xing(邢波)教授为什么能读完一般学校的分子生物学PhD后到伯克利去CS PhD?

    Eric Xing当年为什么能在读了一个50名左右的学校Rutgers的分子生物学phd之后 去加州大学伯克利分校UCB读计算机科学博士 感觉像这种转行的一般都是第一个phd已经是名校名导才能转得好 我也看过Eric在Rutgers发的论文
  • gcc在Linux下如何运行一个C/C++程序

    安装gcc sudo apt get install gcc 之后输入密码即可 绝对路径的方式进入usr目录 cd home home 是普通用户的主目录 在创建用户时 每个用户要有一个默认登录和保存自己数据的位置 就是用户的主目录 所有普
  • 数据的平滑处理函数——log1p和exmp1

    参考 https blog csdn net qq 36523839 article details 82422865 https docs scipy org doc numpy 1 13 0 reference generated nu