【项目实战】Python基于局部离群因子LOF算法(LocalOutlierFactor)实现信用卡数据异常值检测项目实战

2023-10-27

说明:这是一个机器学习实战项目(附带数据+代码+文档+代码讲解),如需数据+代码+文档+代码讲解可以直接到文章最后获取。

1.项目背景

      异常检测是数据挖掘领域研究的基本问题之一,已被广泛应用于网络入侵检测、信用卡欺诈侦查等领域。局部离群因子(简称LOF)算法是一种具有较好检测效果和适用性的基于密度的异常点检测算法。

      近年来,随着我国资本市场开放程度的进一步提升,国外金融机构的介入,国内整体的信用状况不断改善,银行卡市场的多元化主体构成的产业链已经日臻成熟,我国信用卡产业上升到一个新的阶段,得到了飞速发展。但是信用卡的高增长速度也伴随着一系列的问题,对个人来说,信用卡的使用给我们带来很大的便利,但使用稍有不当就会产生风险,造成一定的经济损失。对于发卡银行,由于市场竞争比较激烈,发卡行为了实现利益最大化,它们往往低估信用卡风险,随意降低发卡对象和信用卡发放审核的标准,使得我国信用卡客户的总体质量降低很多,这样信用卡业务的欺诈风险不断增加,而我国的信用体系还没有建立和发挥作用。虽然信用卡交易中的欺诈行为在整个交易中所占比例很小,但是欺诈行为一旦发生,给银行造成的损失也是非常巨大的。因此有效识别信用卡欺诈风险,对信用卡数据集进行欺诈检测、对信用卡风险进行有效管理和控制,是我国各信用卡发卡行和信用卡产业管理层共同面临、迫切需要解决的问题。。

2.数据获取

本次建模数据来源于网络(本项目撰写人整理而成),数据项统计如下:

 数据详情如下(部分展示):

3.数据预处理

3.1 用Pandas工具查看数据项

使用Pandas工具的columns查看数据项名称:

 

关键代码:

3.2查看数据集的形状

使用Pandas工具的shape查看数据集的形状:

 

关键代码:

4.探索性数据分析

4.1绘制数据项直方图

由于数据项比较多,为了更加清晰地进行展示,分4个直方图来画,如下图所示:

 

通过上图可以看出,大多数特征都聚集在0值附近,说明信用卡欺诈还是比较少的。

4.2计算欺诈案例的数量以及欺诈率

结果如下:

欺诈率:

计算欺诈数量和正常的数量:

关键代码如下:

4.3相关性分析

由于数据项比较多,相关性分析分为3个图进行展示,如下图所示:

 

通过上图可以看出,各个特征之间的相关性比较低,即各个特征相对独立。

关键代码如下:

5.特征工程

5.1 建立特征数据和标签数据

Class为标签数据,除Class之外的为特征数据。关键代码如下:

 

5.2查看特征和标签的形状

结果如下图:

 

关键代码如下:

6.构建LOF模型

主要使用sklearn工具的LocalOutlierFactor()方法构建局部离群因子模型,用于目标异常数据检测。

6.1建模

 关键代码如下:

7.模型评估

7.1评估指标及结果

评估指标主要包括准确率、查准率、查全率、F1分值等等。

 从上表可以看出,准确率将近100%,而F1分值0.0767,说明数据集类型分布不均匀导致,但是不影响本次项目的应用。

关键代码如下:

 

7.2 分类报告

分类报告如下图所示:

 

从上图可以看到,类别为0的F1值为1,分类为1的F1值为0.08,准确率100%;出现这个低F1值的原因为数据集类别分布极度不均匀,但是这并不太影响本次项目的应用。

7.3 绘制ROC曲线

ROC曲线,如下图所示:

 

通过上图可以看到,AUC的值为0.78,说明模型效果良好。

8.结论与展望

综上所述,使用了局部离群因子LOF算法对信用卡数据进行异常检测。实验结果表明,该算法可以有效检测出信用卡数据中存在的异常数据。可用于日常生活中进行建模预测,以提高生产价值和效能。

本次机器学习项目实战所需的资料,项目资源如下:

项目说明:
链接:https://pan.baidu.com/s/1dW3S1a6KGdUHK90W-lmA4w 
提取码:bcbp

网盘如果失效,可以添加博主微信:zy10178083

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

【项目实战】Python基于局部离群因子LOF算法(LocalOutlierFactor)实现信用卡数据异常值检测项目实战 的相关文章

随机推荐

  • 10年经验Python老司机分享:转行如何自学Python并且找到工作?

    目前信息化产业发展势头很好 互联网就成为了很多普通人想要涉及的行业 因为相比于传统行业 互联网行业涨薪幅度大 机会也多 所以就会大批的人想要转行来学习Python开发 零基础学习Python必须明确的几点 1 明确你将来是做什么工作的 需要
  • 动态规划经典问题之字符串最少修改次数

    题目描述 依旧是字符串处理 设A和B是两个字符串 我们要用最少的字符操作次数 将字符串A转换为字符串B 这里所说的字符操作共有三种 1 删除一个字符 2 插入一个字符 3 将一个字符改为另一个字符 对任给的两个字符串A和B 计算出将字符串A
  • antd Pro脚手架安装踩坑

    1 node安装 2 初始化 npm i ant design pro cli g 3 创建项目文件夹 pro create myapp 出现问题 无法加载文件 C Users AppData Roaming npm cnpm ps1 因为
  • springcloud项目详解一:基本部署

    1 是什么 springcloud是一系列框架的有序集合 它利用Spring Boot的开发便利性巧妙地简化了分布式系统基础设施的开发 如服务发现注册 配置中心 消息总线 负载均衡 断路器 数据监控等 都可以用Spring Boot的开发风
  • CS285课程笔记(5.(1))——从概率图角度理解强化学习(变分推断原理+VAE)

    Lecture 18 19 2020版 这两节课的核心内容就是如何把强化学习问题 又可以称为最优控制问题 转化为一个基于概率图模型的推断问题 这里的推断又可以进一步细分为精确推断 Exact Inference 和近似推断 Approxim
  • Flutter AudioPlayer单例模式

    一 前言 一般情况下 audioPlayer最好设置成单例模式 这样在跨页面操作时会更好的使用 确保所有对象都访问一个实例 二 引用 audioplayers 功能 控制mp3文件播放 地址 https pub dev packages a
  • LAStools

    LASlib with LASzip DLL are LAStools http www cs unc edu isenburg lastools
  • ctfshow-WEB-web7

    ctf show WEB模块第7关是一个SQL注入漏洞 注入点是数值型注入 源码中过滤了空格 我们可以使用括号 或者注释 来代替空格 页面中有一个文章列表 随便点一个 从url地址栏中可以看到 页面通过文章的id值来查询文章内容 我们可以考
  • SAS EM之SAS Credit Scoring不能使用

    SAS EM之SAS Credit Scoring不能使用 关于SAS EM找不到记分卡问题 我们要去看SAS Credit Scoring license有没有许可 未许可的话是不能使用的 这是我之前不能使用的截图 是没有信用评分这个节点
  • vue项目中使用神策进行数据埋点

    前言 在vue种使用神策进行数据埋点 一 数据埋点的意义 所谓埋点就是在应用中特定的流程收集一些信息 用来跟踪应用使用的状况 后续用来进一步优化产品或是提供运营的数据支撑 包括访问数 Visits 访客数 Visitor 停留时长 Time
  • 什么是轴向注意力(Axial Attention)机制

    Axial Attention 轴向注意力 有行注意力 row attention 和列注意力 column attention 之分 一般是组合使用 原文阅读 https arxiv org pdf 1912 12180v1 pdf se
  • Android自动化测试,5个必备的测试框架

    Appium Appium是一个开源的移动测试工具 支持iOS和Android 它可以用来测试任何类型的移动应用 原生 网络和混合 作为一个跨平台的工具 你可以在不同的平台上运行相同的测试 为了实现跨平台的功能 Appium使用了供应商提供
  • 【AD21】keepout层和机械1层怎么相互转换

    1 从keepout转换为Mechanical 1层 见下图 图1 图2 图3 图4 2 从keepout转换为Mechanical 1层 见下图 如果想要将keepout层转换成机械1层 可以先全选中想要转换的keepoutz层 然后在c
  • Docker之旅:在Docker容器中创建第一个程序

    Docker的概念 Docker是开发人员和系统管理员 使用容器开发 部署和运行应用程序的平台 使用Linux容器来部署应用程序称为集装箱化 容器不是新的事物 但它们用于轻松部署应用程序 一 测试一下Docker的版本 1 查看Docker
  • 实用工具推荐,浏览器必备宝藏插件:Wetab新标签页

    打开浏览器 你的起始页是否充满了广告和各种乱七八糟的信息呢 或者过于单调 而失去了某些你想要的功能 这里给大家推荐一个在Chrome浏览器和edge浏览器上都能愉快使用的浏览器插件 Wetab新标签页 没有广告 页面干净美观且具备各种实用功
  • android live 电视 源码,GitHub - mxiaoguang/LivePlayback: Android TV直播电视节目 ,包含各央视频道及卫视频道...

    Android TV直播电视节目 更多技术博客 项目 欢迎关注公众号 Android TV开发交流群 135622564 传统电视直播节目 在Android TV上起着越来越重要的作用 央视 各地卫视 满足观众日益增长的多元化需求 看下效果
  • IV转换电路原理图

    毫安级IV转换电路如下 如果要uA级转换 可把运放改为 D795 SG 8210 L C6482等输入偏置电流在pA级的运
  • tomcat配置443端口

  • true_type与false_type

    std true type和std false type 实际上是类型别名 是两个类型 类模板 注意区分true type与false type与true和false区别 true type false type代表类型 true fals
  • 【项目实战】Python基于局部离群因子LOF算法(LocalOutlierFactor)实现信用卡数据异常值检测项目实战

    说明 这是一个机器学习实战项目 附带数据 代码 文档 代码讲解 如需数据 代码 文档 代码讲解可以直接到文章最后获取 1 项目背景 异常检测是数据挖掘领域研究的基本问题之一 已被广泛应用于网络入侵检测 信用卡欺诈侦查等领域 局部离群因子 简