Python
Java
PHP
IOS
Android
Nodejs
JavaScript
Html5
Windows
Ubuntu
Linux
hive分区表的元数据信息numRows显示为0
创建分区表 CREATE TABLE dept partition deptno int dname string loc string PARTITIONED BY
Hadoop
hive
数据仓库
数据仓库、数据开发面经
目录 一 前言 二 关于内推or猎头or招聘软件的选择 三 面试形式 四 面试流程选择
一些感悟
数据仓库
数据开发
面试
Hive 基础知识
目录 1 基础概念 1 1 定义 1 2 组件 1 3 元数据 1 4 内部表和外部表 2 Hive与关系型数据库的对比 3 Hive 数据存储 4 参考文献 1 基础概念 1 1 定义 Hive是一个基于Hadoop的数据仓库基础设施工具
大数据开发
hive
Hadoop
数据仓库
【ETL】常见的ETL工具(含开源及付费)一览和优劣势分析?
一 Kettle Kettle 中文名称叫水壶 该项目的概念是把各种数据放到一个壶里 然后以一种指定的格式流出 Kettle是一款国外开源的ETL工具 纯java编写 可以在Window Linux Unix上运行 无需安装 数据抽取 高效
数据治理
数据中台
Bigdata
ETL
数据仓库
数仓 - hive ,身份证和手机号 匹配 - 正则方式
数仓 hive 身份证和手机号 匹配 正则方式 身份证 内容校验 身份证号字段 regexp 1 9 0 9 14 1 9 0 9 16 0 9xX 长度校验 and length trim 身份证号字段 15 or length trim
hive
Hadoop
数据仓库
大数据
Kettle的下载安装教程和使用简介(内含第一个kettle转换案例)
本文首先介绍Kettle工具的安装及基本概念 然后通过一个案例实操介绍Kettle工具的使用 本文重要的内容如下 Kettle的安装 1 Java的安装 登录Java的官网后 进入到下载页面 http www oracle com tech
数据预处理kettle
数据仓库
数据分析
数据挖掘
大数据电商数据仓库系统搭建(CDH数仓) 附离线安装包
一 Cloudera Manager 概述 1 CM 简介 Cloudera Manager是一个拥有集群自动化安装 中心化管理 集群监控 报警功能的一个工具 使得安装集群从几天的时间缩短在几个小时内 运维人员从数十人降低到几人以内 极大的
Hadoop Hive Spark 大数据安全
大数据
数据仓库
MapReduce分片阶段详解
MapReduce作为第一代的大数据计算引擎 其经典地位至今仍然得到认可 MapReduce之后的Spark计算引擎 本质上来说 依然是借用了MapReduce的核心思想 今天的大数据技术分享 我们就主要来讲讲MapReduce计算前的准备
数据仓库
Hadoop
大数据
MapReduce
MapReduce分片阶段详解
Pentaho学习笔记
一 Pentaho 整体架构 cc 二 Client tools 1 Report Designer 报表创建工具 如果想创建复杂数据驱动的报表 这是合适工具 2 Design Studio 这是基于eclipse的工具 你可以使用它来创建
ETL
Kettle
数据仓库
Penthno
数睿通2.0功能发布—集成Doris、数仓动态配置、质量任务完善、接入速度优化
文章目录 引言 集成 Doris 数仓动态配置 质量任务完善 接入速度优化 结语 引言 数睿通 2 0 数据中台迎来了 6 月份的更新 本次更新集成了 Doris 数据库 可用于数据集成 数据开发等模块 过去数仓使用的是 TiDB 新版本可
数据库
数据仓库
大数据
Java
HIVE表中导入导出数据的几种方式
一 往HIVE表中导入导出数据 语法结构 带括号的表示可选择字段 LOAD DATA LOCAL INPATH filepath OVERWRITE INTO TABLE tablename PARTITION partcol1 val1
hive
大数据
数据仓库
五、数据仓库详细介绍(建模)实践篇
1 数仓建模在数仓建设过程中的位置 这张截图源自之前从 0 到 1 建设数据仓库的经验总结 采用的是瀑布模式的展现方式 但实际操作中经常会使用螺旋迭代模式 因为很难有人能够一步到位的考虑清楚所有细节 通过业务调研我们熟悉了相关业务过程 需求
数据仓库
数据挖掘
数据库
4万字 全面解读数据中台、数据仓库、数据湖等概念!建议收藏!
作者丨修鹏李 建议阅读需50分钟 如今 随着诸如互联网以及物联网等技术的不断发展 越来越多的数据被生产出来 据统计 每天大约有超过2 5亿亿字节的各种各样数据产生 这些数据需要被存储起来并且能够被方便的分析和利用 随着大数据技术的不断更新和
数据仓库
lamp
scipy
zk
makefile
谈谈「数据仓库构建与分层」
1 先导知识之 数据库与ER建模 1 1 数据库 DataBase 数据库是按照数据结构来组织 存储和管理数据的仓库 是一个长期存储在计算机内的 有组织的 可共享的 统一管理的大量数据的集合 数据库是以一定方式储存在一起 能与多个用户共享
数据仓库
数据库
mysql
大数据
基于Hive数据仓库的标签画像实战
Hive数据仓库 建立用户画像首先需要建立数据仓库 用于存储用户标签数据 Hive是基于Hadoop的数据仓库工具 依赖于HDFS存储数据 提供的SQL语言可以查询存储在HDFS中的数据 开发时一般使用Hive作为数据仓库 存储标签和用户特
数据仓库
数据建模
实战
hive
数据库
Hive 用户自定义函数UDF详解
本例自定义一个Hive UDF函数 功能是将从Hive数据仓库查询出来的字符串进行大小写转换 第一步 创建java工程 添加jar包 导入Hive的lib目录下的jar包以及hadoop安装目录下的hadoop core jar 第二步 新
hive
hive udf
数据仓库
自定义函数
数字化转型必备:数睿通 2.0 数据中台升级详解
引言 转眼又过了一个月的时间 数睿通 2 0 数据中台也迎来了本月的更新 本次更新主要包括 数据资产完善 资源评价 数据集市完善 打通审批流程 修复数据生产由于 Druid SQLUtils 不支持 Doris 导致无法建表的问题 优化贴源
Hadoop
git
数据仓库
大数据
2022.03.06 mysql8拉链表-测试
1 创建业务表并初始数据 drop table if exists mall user create table mall user uid bigint unsigned auto increment comment 用户唯一ID pri
离线数仓
数据仓库
计算机三级数据库数据仓库与数据挖掘(二)、数据仓库、面向主题、不可直接修改、批量访问、数据的粒度级设计、决策支持、元数据、封锁粒度、维护策略、实时维护、延时维护、快照维护、
14 在具有数据仓库的企业数据环境中 数据仓库数据一般都具有许多特点 下列都属于其特点的是 A 面向主题 不可直接修改 批量访问 B 面向主题 可直接修改 性能要求较为宽松 C 集成的 可直接修改 批量访问 D 集成的 不可直接修改 性能要
计算机三级练习题
数据仓库
数据挖掘
数据库
数据仓库_数据仓库_缓慢渐变维度实现的几种思路
数仓缓慢渐变维度表设计 另一篇比较好的文章结合实际案例 数仓建设 缓慢变化维的10种处理方式 雾岛与鲸的博客 CSDN博客 缓慢渐变维度 维度数据会随着时间发生变化 变化速度比较缓慢 这种维度数据通常称作缓慢渐变维 由于数据仓库需要追溯历史
数仓设计
数据仓库
«
1 ...
7
8
9
10
11
12
13
...17
»