用户画像统计标签（年龄段,消费周期,常用支付方式）

2023-11-16

年龄段


import bean.HBaseMeta
import org.apache.spark.SparkContext
import org.apache.spark.sql._

// 关联 不仅仅是一个相同的
// 可以 一个与两个之间


object AgeTag {

  //inType=HBase##zkHosts=192.168.10.20##zkPort=2181##hbaseTable=tbl_users##family=detail##selectFields=id,birthday

// 年龄段 以搞定
  def main(args: Array[String]): Unit = {

    //1 创建sparksql
    val spark: SparkSession = SparkSession.builder.appName("AgeTag").master("local[*]").getOrCreate
    val sc: SparkContext = spark.sparkContext
    sc.setLogLevel("WARN")


    //2 连接MySQL
    //2 连接MySQL数据库
    val url = "jdbc:mysql://bd001:3306/tags_new?userUnicode=true&characterEncoding=UTF-8&serverTimezone=UTC&user=root&password=123456"
    val table = "tbl_basic_tag"
    val properties = new Properties()
    val mysqlCoon: DataFrame = spark.read.jdbc(url, table, properties)

    //隐式转换
    import spark.implicits._
    //引入sparkSQL的内置函数
    import org.apache.spark.sql.functions._


    //3 读取四级标签 为读取HBASE做准备
    val fourDS: Dataset[Row] = mysqlCoon.select('rule).where("id=99")

    val fourMap: Map[String, String] = fourDS.map(row => {
      //使用##切分
      row.getAs("rule").toString.split("##")
        //再用=切分
        .map(line => {
        val arr: Array[String] = line.split("=")
        (arr(0), arr(1))  // 通过key  获取value
      })
    }).collectAsList().get(0).toMap

    //将fourMap转化为HBaseMeta样例类

    var HbaseMeta: HBaseMeta = getHBaseMeta(fourMap)
    //println(HbaseMeta.selectFields)

    //4 读取五级标签 未匹配职业做准备
    val fiveRow: Dataset[Row] = mysqlCoon.select('id, 'rule).where("pid=99")





    val fiveDF: DataFrame = fiveRow.map(row => {
      val id: String = row.getAs("id").toString
      var start = ""
      var end = ""
      //19800101-19891231
      val rule: String = row.getAs("rule").toString
      //把rule拆分
      val arr: Array[String] = rule.split("-")
      if (arr != null && arr.length == 2) {
        start = arr(0)
        end = arr(1)
      }
      (id, start, end)
    }).toDF("id", "start", "end")

    //5 读取HBASE数据
    val HBaseDatas: DataFrame = spark.read.format("tools.HBaseDataSource")
      .option(HBaseMeta.ZKHOSTS, HbaseMeta.zkHosts)
      .option(HBaseMeta.ZKPORT, HbaseMeta.zkPort)
      .option(HBaseMeta.HBASETABLE, HbaseMeta.hbaseTable)
      .option(HBaseMeta.FAMILY, HbaseMeta.family)
      .option(HBaseMeta.SELECTFIELDS, HbaseMeta.selectFields)
      .load()
    //HBaseDF.show(20)


    /*
    巧妙处理  日期转为19900101-19991231
    hbase中birthday格式为1989-12-31
    但是五级标签中格式为19891231
    所以需要将yyyy-MM-dd 换为yyyyMMdd
     */

    //使用replace方法替换日期格式
    val HBaseDF: DataFrame = HBaseDatas.select('id.as("userId"),
      // 用udf 函数
      regexp_replace('birthday,"-","").as("tagsId"))

    //6 与五级标签规则进行匹配，以hbase的 birthday在 五级标签start end之间作为条件进行匹配

    val newAgeTag: DataFrame = HBaseDF.join(fiveDF, HBaseDF.col("tagsId")
      .between(fiveDF.col("start"), fiveDF.col("end")))
      // hbase 的userid       五级标签的id   新的标签的Id
      .select('userId.as("userId"), 'id.as("tagsId"))


    //自定义函数
    val getAllTags = udf((historyTagId: String, newFaceTagsId:String) => {
      if (historyTagId == "") {
        newFaceTagsId
      } else if (newFaceTagsId == "") {
        historyTagId
      } else if (newFaceTagsId == "" && historyTagId == "") {
        ""
      } else {
        //拼接历史数据和新数据（多次运行可能有重复数据）
        val alltags: String = historyTagId + "," + newFaceTagsId
        //使用，分割去重后返回字符串类型
        alltags.split(",").distinct.mkString(",")

//        alltags.toSet
      }
    })
    //7 解决标签覆盖问题
    //读取标签结果表 追加标签覆盖写入
    //a读取test内历史标签数据 已经计算出来的标签
    val historyTag: DataFrame = spark.read.format("

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

用户画像统计标签（年龄段,消费周期,常用支付方式）的相关文章

MessageDigest（加密）

MessageDigest类 MessageDigest 类是一个引擎类它是为了提供诸如 SHA1 或 MD5 等密码上安全的报文摘要功能而设计的密码上安全的报文摘要可接受任意大小的输入一个字节数组并产生固定大小的输出该输出称为一
使用 Cloudflare Zero Trust 通过 SSH 连接到 GitHub Actions 的 Runner 机器以进行调试

GitHub Actions 的 Runner Images 包含了很多常用的开发环境使用它来构建一些软件是很方便的不过构建过程难免会遇到问题而在 GitHub Actions 上进行构建和在本地有很多不同之处首先 Runner
服务器装系统都会有哪些坑,小白装机避坑——电脑装系统篇二

装机系统分区首先你需要安装好你的固态硬盘开机进入系统一般用的分区工具都是 DiskGenius 这个软件粗暴的组装不需要机箱一台电脑里面只能设置一个盘作为系统盘也就是我们的主分区切记先对硬件进行测试组装看看能不能正常启
1125 斐波那契数列

题目描述输入整数n 输出斐波那契数列的前n项输入要求输入一个整数n 1 lt n lt 12 输出要求输出斐波那契数列的前n项每个数后面都有空格输入样例 6 输出样例 1 1 2 3 5 8 提示斐波那契数列的排列规则为第1
echarts legend文字颜色

legend textStyle color fft
一个有意思的let面试题

今天看到一个面试题 let des 我在外边 let obj des 我在里面 foo function console log this des let bar obj foo bar 这个bar 调用后会打印出什么本以为是考 this
查看微信小程序的appID和secret

https mp weixin qq com wxopen devprofile action get profile token 1504304474 lang zh CN 转载于 https www cnblogs com fuckin
springmvc源码学习（三十）@ControllerAdvice 全局异常处理

目录前言一示例二原理前言在请求到达了 DispatcherServlet 的处理流程进入 doDispatch 以及后续流程处理业务的过程中出现异常会进入到 processDispatchResult 处理异常此时如果
C++-- 如何在类外访问一个类中私有的成员变量？

如何在类外访问一个类中私有的成员变量我在网上搜答案的时候看到大部分回答都是在类内部创建一个接口所以此方法我就不再多做赘述今天我说的是利用指针边看代码边理解上代码 class Test private int a 10 int b
win32汇编语言实现冒泡排序

1 背景现在大多数的大规模程序并不是由汇编语言来编写原因很简单因为太耗时了但是汇编语言仍然被广泛运用在配置硬件设备以及优化程序的执行速度和尺寸大小等方面特别是在逆向工程方面更需要深入理解与熟练掌握汇编语言针对现阶段看汇编基本
unity04 解决导入fbx文件黑模问题

左上角window gt rendering gt lighting gt new lighting settings gt 勾选auto generating
TensorFlow在MNIST中的应用-卷积神经网络CNN

参考 TensorFlow技术解析与实战用TensorFlow搭建一个卷积神经网络CNN模型并用来训练MNIST数据集 coding utf 8 20171115 HelloZEX 卷积神经网络
【软件测试】----自动化测试详解

自动化测试指软件测试的自动化在预设状态下运行应用程序或者系统预设条件包括正常和异常最后评估运行结果将人为驱动的测试行为转化为机器执行的过程常见的自动化测试工具 QTP selenium Rational Robot jmeter
QtDesigner设计中关于PyQt5与pyside2的报错坑

关注公众号可获取资料分享 0 前言 Qt Designer是使用Qt部件设计和构建图形用户界面 gui 的Qt工具您可以以 what you see is what you get WYSIWYG 的方式组合和自定义窗口或对话框并使用不
JSON取值(key是中文或者数字)方式详解

先准备一个json对象用于演示 var json name zhangsan 年龄 23 404 你可能迷路了使用JS中with关键字 with json console log name 输出 zhangsan console log
基于STM32的智能电子药盒设计

1 前言据报告显示中国有2 3亿的60岁以上老人占全国总人口的六分之一在老年人中有65 以上的老年人都是慢性病患者其中失能和半失能老人将近四千万并且人口还在以加速度增长老年人的身体健康成为社会密切关注的问题大部分的老年人都患
JavaScript基本包装类型

基本包装类型为了便于操作基本类型值 ECMAScript还提供了3个特殊的引用类型 Boolean Number和String 这些类型与其它引用类型相似但同时也具有与各自的基本类型相应的特殊行为实际上每当读取一个基本类型值的时候
ElasticSearch-全文检索-简单使用

简介 https www elastic co cn what is elasticsearch 全文搜索属于最常见的需求开源的 Elasticsearch 是目前全文搜索引擎的首选它可以快速地储存搜索和分析海量数据维基百科 Sta
类和对象

一类类描述了一组具有相同属性和行为特征的对象对象是类的实例类是一种数据类型而对象是该类型的变量在c 语言中一个类的定义包含数据成员和成员函数两部分内容数据成员定义该类对象的属性不同对象的属性值可以不同成员函数定义了该类对
回归分析及实际案例：预测鲍鱼年龄

上一篇文章线性回归 Linear regression 算法引入 1 线性回归算法的优点结果易于理解计算不复杂缺点对非线性数据拟合不好目标平方误差和最小求解对参数w求导等于0 的回归系数模型预测函数说明标准回归

随机推荐

开发者必备的网站。javascript手册，css手册

参考手册大全更多更好的网址请到http www loveboygirl com 在电脑技术参考手册下面网站开发人员一定喜欢很多好工具哦希望大家多多支持桌面版手册开源中国开源中国工具 msdn技术资源库 technet M
leptonica依赖的相关库的生成

leptonica依赖的相关库的生成写在前面笔者观摩大量大佬的教程完成的本篇文章反正我是成功了电脑Win10 64位 VS2017版本用到的源码由于试过太多来源部分已经忘记哪儿来的了有空我也传份上来哈哈至于为此学习过的文章
startActivity流程学习

文章目录应用完全没有启动过应用完全没有启动过 launcher从sm 管理java层的ServiceManager 的服务列表里面找到AMS的代理对象AMSProxy 调用AMS向Zygote发出socket请求从Zygote进程fo
vi的复制粘贴命令

vi编辑器有3种模式命令模式输入模式末行模式掌握这三种模式十分重要命令模式 vi启动后默认进入的是命令模式从这个模式使用命令可以切换到另外两种模式同时无论在任何模式下只要按一下 Esc 键都可以返回命令模式在命令模式中输入字
SpringBoot多数据源导致mybatis驼峰映射配置失效

SpringBoot多数据源导致mybatis驼峰映射配置失效 1 正常情况下直接配置即可生效比如开启驼峰映射开启示例 properties文件中配置 mybatis configuration map underscore to
踩了大坑： go json.Marshal时，结构体字段需要大写

go中根据首字母的大小写来确定可以访问的权限如果首字母大写作用域则可以被其他的包访问如果首字母小写作用域则只能在本包中使用包括接口类型函数和变量等可以简单的理解成首字母大写是公有的首字母小写是私有的出现问题需要将js
数据结构——图的两种遍历方法

遍历定义从已给的图中某一顶点出发沿着一些边访遍图中所有的顶点且使每个顶点仅被访问一次就叫做图的遍历遍历实质找每个顶点的邻接点的过程图的特点图中可能存在回路且图的任一顶点都可能与其它顶点相通在访问完某个顶点之后可能会沿着
gzip text html,Vue gzip压缩导致js无法解析 Content-Type: text/html(JS内容)（压缩完成是xxx.js.gz）...

压缩配置 Vue config js 插件compression webpack plugin gzip压缩config plugin compressionPlugin use 代码混淆 new CompressionWebpackPlu
识别操作系统的常用方式

识别操作系统的方式一 windows系统对大小写区分不是很明显判断修改路径大小写后正常windows 报错linux 1 eg 大小写修改之后页面回显正常说明网站系统为windows 2 eg 可以判断该服务器系统为linux 二通过
计算机总线仲裁详解

文章目录总线仲裁一关于总线仲裁二总线仲裁的分类 1 集中仲裁方式 1 链式查询方式 2 计数器定时查询方式 3 独立请求方式 2 分布仲裁方式总线仲裁一关于总线仲裁总线仲裁来由我们按照对总线有无控制功能将总线上所连接的各
SELinux深入理解

1 简介 SELinux带给Linux的主要价值是提供了一个灵活的可配置的MAC机制 Security Enhanced Linux SELinux 由以下两部分组成 1 Kernel SELinux模块 kernel security
中国古代数学问题——鸡兔同笼解析

中国古代数学问题鸡兔同笼解析鸡兔同笼是一道古代数学问题通过计算鸡和兔的总数量和腿的总数来求解鸡和兔的个体数量这个问题在数学教育中经常被用来培养学生的问题解决能力和逻辑思维下面我们将对鸡兔同笼问题进行详细的解析并附上相应的源代码
三进制计算机_计算机数学原理之二进制

上一节我们了解了曲线的矩形逼近以及由此代表的模拟量的数位表示基于以上知识这节课我们可以开始学习二进制了计算机原理之二进制对数值的数位表示我们可以很自然的想起十进制即所有的数字都用10个基本的符号表示基本符号是0到9十个数字
c#复制一个文件到指定文件夹

c 复制一个文件到指定文件夹 path 指定文件夹From www uzhanbao com fileName指定文件的完整路径 public void CopyFile string path string fileName FileIn
mybatis-plus+druid配置多套数据源

这里我使用的是mysql和postgresql进行配置详细讲讲会遇到的问题 1 首先引入需要用到的依赖
期货开户关于基本面量化

一库存供求矛盾看库存东西没有了缺了就会涨价不缺一般不会涨所以一定要注意库存去库存快的品种特别是库存低价格低的品种要重点关注库存有一点要特别注意要是有效去库存通过降价让下游买货这种去库存不是根本因为库
【Python】fetchone()和fetchall()

fetchone 返回单个的元组也就是一条记录 row 如果没有结果则返回 None cu execute select user password from user where user s name arr cur fetchon
【多目标优化算法】多目标蚱蜢优化算法（Matlab代码实现）

个人主页研学社的博客欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码及详细文章讲解 1 概述
LeetCode 剑指 Offer 10- I. 斐波那契数列

LeetCode 剑指 Offer 10 I 斐波那契数列题目描述写一个函数输入 n 求斐波那契 Fibonacci 数列的第 n 项即 F N 斐波那契数列的定义如下 F 0 0 F 1 1 F N F N 1 F N 2 其中
用户画像统计标签（年龄段,消费周期,常用支付方式）

年龄段 import bean HBaseMeta import org apache spark SparkContext import org apache spark sql 关联不仅仅是一个相同的可以一个与两个之间 objec

用户画像统计标签（年龄段,消费周期,常用支付方式）

年龄段

用户画像统计标签（年龄段,消费周期,常用支付方式） 的相关文章

随机推荐

热门标签

用户画像统计标签（年龄段,消费周期,常用支付方式）的相关文章