Hadoop学习笔记二 - kNN算法实现用户风险分类

2023-10-31

在银行这个极其庞杂的交易体系中，每天都能收集到大量的用户信息和用户数据。而伴随着我国利率市场化的不断深化，净利差的迅速收窄，各大银行都希望利用手头的大量用户信息和实时产生的用户数据，对用户进行深度分析挖掘以便进行风险管控和个性化营销，降低银行的运营成本，提升获利空间。本文利用机器学习算法中最简单的kNN算法，也称k-近邻算法，在Hadoop中实现用户的风险等级的分类，以便向用户推荐符合其风险承受能力范围内的产品，也便于对用户进行风险管控。

k-邻近算法的工作原理是：存在一个样本数据集合，也称作训练样本集，并且样本集中每个数据都存在标签，即我们知道样本集中每一数据与所属分类的对应关系。输入没有标签的新数据后，将新数据的每个特征值与样本集中数据对应的特征值进行比较，然后算法提取样本集中特征最相似的数据（最邻近）的分类标签。一般来说，只选择样本数据集中前k个最相似的数据。最后选择k个最相似数据中出现次数最多的分类，作为新数据的分类。在本文要进行的用户风险等级分类中，为简明起见，我们把用户分成三类，风险承受能力低、风险承受能力低中、风险承受能力高。即每个用户都会对应着一个标签，低、中或者高。而对于每个用户，我们将从三个维度进行考察，分别是股票、基金、贵金属投资金额、理财产品投资金额、存款和货币市场投资金额（当然在实际用户风险承受能力的判断中，考虑的因素要比这个多很多，为了简单起见，只考虑用户的三个维度）。下图展示了某几个训练集中的用户数据。

用户	股票、基金及贵金属投资	理财产品投资	存款及货币市场投资	风险分类
1	30000	10000	0	high
2	0	20000	20000	middle
3	0	0	40000	low

我们把一组已知的打好标签的用户数据放到Hadoop的HDFS上，作为训练的样本集，同时把另外一组打好标签的用户数据也放到HDFS上，作为测试数据。在kNN算法中，每一组数据都被看成一个节点，如在我们的客户承受风险分类的案例中，A用户可以表示成（xA0, xA1, xA2），xA0表示股票、基金、贵金属的投资金额，xA1表示理财产品的投资金额，xA2表示存款以及货币市场投资的金额。用户A的节点A（xA0, xA1, xA2）与用户B的节点（xB0, xB1, xB2）之间的距离采用欧式距离公式来计算。

distance=(x

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Hadoop

机器学习

Hadoop学习笔记二 - kNN算法实现用户风险分类的相关文章

适用于 Hadoop 的 DynamoDB 输入格式

我必须使用 Hadoop mapreduce 处理保留在 Amazon Dynamodb 中的一些数据我在互联网上搜索 Dynamo DB 的 Hadoop InputFormat 但找不到它我对 Dynamo DB 不熟悉所以我猜测
如何创建 HIVE 表来读取分号分隔值

我想创建一个 HIVE 表该表将以分号分隔的值读取但我的代码不断给出错误有没有人有什么建议 CREATE TABLE test details Time STRING Vital STRING sID STRING PARTITION
我可以在没有 Hadoop 的情况下使用 Spark 作为开发环境吗？

我对大数据和相关领域的概念非常陌生如果我犯了一些错误或拼写错误我很抱歉我想了解阿帕奇火花 http spark apache org 并使用它仅在我的电脑中在开发测试环境中由于Hadoop包含HDFS Hadoop分布式文件系统
如何从hdfs读取文件[重复]

这个问题在这里已经有答案了我在 project1目录下的hadoop文件系统中有一个文本文件名mr txt 我需要编写 python 代码来读取文本文件的第一行而不将 mr txt 文件下载到本地但我无法从 hdfs 打开 mr tx
更改 Spark Streaming 中的输出文件名

我正在运行一个 Spark 作业就逻辑而言它的性能非常好但是当我使用 saveAsTextFile 将文件保存在 s3 存储桶中时输出文件的名称格式为 part 00000 part 00001 等有没有办法更改输出文件名谢谢
hive - 在值范围之间将一行拆分为多行

我在下面有一张表想按从开始列到结束列的范围拆分行即 id 和 value 应该对开始和结束之间的每个值重复包括两者 id value start end 1 5 1 4 2 8 5 9 所需输出 id value current
Flume将数据从MySQL迁移到Hadoop

请分享您的想法需求是将MySQL db中的数据迁移到Hadoop HBase进行分析数据应该实时或接近实时地迁移 Flume可以支持这个吗有什么更好的方法据我了解 Flume 并不是为此而设计的 Flume 基本上用于读取日志如数
如何跟踪hadoop中哪个数据块在哪个数据节点？

如果复制一个数据块会复制到哪个数据节点是否有任何工具可以显示复制块存在的位置如果您知道文件名则可以通过 DFS 浏览器查找转到您的 namenode Web 界面说浏览文件系统并导航到您感兴趣的文件在页面底部将列出文件中
Spark 和 Python 使用自定义文件格式/生成器作为 RDD 的输入

我想问一下 Spark 中输入的可能性我可以看到从http spark apache org docs latest programming guide html http spark apache org docs latest pro
Apache hadoop 版本 2.0 与 0.23

Hadoop 的版本和发行版太多让我很困惑我有几个问题 Apache Hadoop 1 x 是从 0 20 205 开始的 Apache Hadoop 2 0 是从 0 22 还是 0 23 开始根据这个blogpost http b
如何按行扩展数组值！！使用 Hive SQL

我有一个有 4 列的表其中一列项目类型是 ARRAY 其他是字符串 ID items name loc id1 item1 item2 item3 item4 item5 Mike CT id2 item3 item7 item4 i
如何找到 JAR：/home/hadoop/contrib/streaming/hadoop-streaming.jar

我正在练习有关 Amazon EMR 的复数视角视频教程我被困住了因为我收到此错误而无法继续 Not a valid JAR home hadoop contrib streaming hadoop streaming jar 请注意
运行 Sqoop 导入和导出时如何找到最佳映射器数量？

我正在使用 Sqoop 版本 1 4 2 和 Oracle 数据库运行 Sqoop 命令时例如这样 sqoop import fs
无法在 Windows 10 中启动 Spark Master

我是 Spark 新手我正在尝试手动启动 master 在 Windows 10 中使用 MINGW64 当我这样做时 Downloads spark 1 5 1 bin hadoop2 4 spark 1 5 1 bin hadoop2
适用于 Python 3.x 的 Hive 客户端

是否可以使用 Python 3 x 连接到 hadoop 并运行 hive 查询我正在使用Python 3 4 1 我发现可以按照这里写的方式完成 https cwiki apache org confluence display Hiv
使用 org.apache.hadoop/* 依赖项离线编译 sbt 时遇到的问题

使用依赖于 org apache hadoop 包的 sbt 进行离线编译时遇到很多麻烦一个简单的build sbt name Test version 1 0 scalaVersion 2 10 4 libraryDependencie
与文件名中的冒号“：”作斗争

我有以下代码用于加载大量 csv gz 并将它们转储到其他文件夹中并将源文件名作为一列 object DailyMerger extends App def allFiles path File List File val parts
全部配对图表上的所有路径

这可能是一个没有最佳解决方案的问题假设我有一个有向图不知道它是否有循环循环检测将是这个问题的方面之一给定一组顶点可能是数百万个顶点我需要计算给定图的所有唯一对之间的所有不同路径没有重复顶点的路径我该如何应对这种情况让我们看
以不同用户身份运行 MapReduce 作业

我有一个与 Hadoop 交互的 Web 应用程序 Cloudera cdh3u6 特定的用户操作应在集群中启动新的 MapReduce 作业该集群不是一个安全集群但它使用简单的组身份验证因此如果我以自己的身份通过 ssh 连接到它
以编程方式读取 Hadoop Mapreduce 程序的输出

这可能是一个基本问题但我在谷歌上找不到答案我有一个映射缩减作业它在其输出目录中创建多个输出文件我的 Java 应用程序在远程 hadoop 集群上执行此作业作业完成后需要使用以下命令以编程方式读取输出org apache had

随机推荐

Flutter 自定义marquee垂直滚动

自定义垂直marquee插件用来向上垂直滚动列表一般滚动公告自定义类 import dart async import package flutter material dart class Marquee extends State
mongodb的sharding(分片)横向扩容的方法

sharding是mongodb进行横向扩容的方法 sharding把一个集合的不同部分存储到不同的机器上当一个数据库集合变得很大时你只需要加入新的机器即可 sharding自动把集合的数据分布到新的服务器上 sharding自动实现数
uni-app小程序中v-show与display:flex一起使用时v-show不生效！

问题同时使用v show与display flex的时候发现v show不能隐藏元素原因经排查原因后发现是因为display flex样式的优先级高于了v show中的display none 解决办法 display flex不要
xpah的使用

目录基本介绍基本使用案例基本介绍为什么要学习xpath scrapy框架支持xpath提取 selenium 经常使用xpath提取使用简洁语法稍稍复杂 xpath是什么全称 xml path language 从xml中提
Jackson快速入门

Java生态圈中有很多处理JSON和XML格式化的类库 Jackson是其中比较著名的一个虽然JDK自带了XML处理类库但是相对来说比较低级使用本文介绍的Jackson等高级类库处理起来会方便很多引入类库由于Jackson相关类库
How to use jupyterlab in Ubuntu 22.04

How to use jupyterlab in Ubuntu 22 04 Install Start Stop Install lwk qwfys pip install jupyterlab upgrade i http mirrors
matplotlib中颜色映射的使用

matplotlib3 3中使用颜色映射问题描述在Python编程从入门到实践一书中15 2 8节按照书中代码在python3 8与matplotlib3 3中 camp plt cm Blues报错解决搜索发现应将此处语法改为
WDS桥接副路由器有线上网方法

副路由器DHCP一定要关闭或者IP池设置的范围不能包括有线设备IP
替换字符串中出现的某段字符串的C语言和C++实现方式

C语言实现方式使用了循坏来重复替换操作直到无法再找到需要替换的子串为止具体实现如下 include
ajax地址url和action,jsp,ajax_JSP中 post url地址重写or action如何实现，jsp,ajax - phpStudy...

JSP中 post url地址重写or action如何实现求解在JSP中 post url地址 ctx web webuser getRights 这个是获取导航JSON ctx 是应用地址知道后面 web webuser getRi
Docker实践（一）应用场景和安装

随着互联网的发展容器技术越来越得到大规模应用厂家的重视 Docker作为paas平台的容器最近几年引起众多技术人士的关注并且也越来越流行一 Docker是什么 Docker 是一个开源的应用容器引擎让开发者可以打包他们的应用以及依
(c/c++)——类型转换

文章目录一 C风格的类型转换二 C 的强制类型转换 1 static cast 最常用 2 reinterpret cast 只用于指针或引用转换 3 const cast 去除指针或引用的const限定 4 dynamic cast
QT 项目中配置文件 pro详解

QT 的配置文件 pro 解析 1 注释单行注释 2 QT core gui QT gui 新增或者减去 QT使用的模块各个模块间使用空格分开默认会包含 core 与 gui两个模块 3 TEMPLATE VALUE模板 VALUE
mysql group by 后求和_MySQL分组求和GROUP BY

源代码实例工资统计表 SELECT wages header bill date wages name SUM wages money AS moneys FROM wages header LEFT JOIN wages ON wage
输入字符串，统计各个字符出现的个数（C语言实现）

include
java 线程同步的list_java集合框架线程同步代码详解

List接口的大小可变数组的实现实现了所有可选列表操作并允许包括null在内的所有元素除了实现List接口外此类还提供一些方法来操作内部用来存储列表的数组的大小此类大致上等同于Vector类除了此类是不同步的 size isEm
C语言——输入3个整数进行比较，要求从小到大输出

方法一 3个数值从小到大进行排序把所有可能罗列出来输出的时候选择运行其中的一种可能输出 include
MySQL集群高可用架构

MySQL集群高可用架构前言高可用架构对于互联网服务基本是标配无论是应用服务还是数据库服务都需要做到高可用对于一个系统而言可能包含很多模块比如前端应用缓存数据库搜索消息队列等每个模块都需要做到高可用才能保证整个系统的
java中的IO和NIO的区别原理

Java NIO和IO的主要区别 IO NIO 面向Stream 面向Buffer 阻塞IO 非阻塞IO Selectors 面向Stream和面向Buffer Java NIO和IO之间最大的区别是IO是面向流 Stream 的 NIO是
Hadoop学习笔记二 - kNN算法实现用户风险分类

在银行这个极其庞杂的交易体系中每天都能收集到大量的用户信息和用户数据而伴随着我国利率市场化的不断深化净利差的迅速收窄各大银行都希望利用手头的大量用户信息和实时产生的用户数据对用户进行深度分析挖掘以便进行风险管控和个性化营销降低银

Hadoop学习笔记二 - kNN算法实现用户风险分类

Hadoop学习笔记二 - kNN算法实现用户风险分类 的相关文章

随机推荐

热门标签

Hadoop学习笔记二 - kNN算法实现用户风险分类的相关文章