Python
Java
PHP
IOS
Android
Nodejs
JavaScript
Html5
Windows
Ubuntu
Linux
大数据入门 - 基础概念
文章目录 1 发展历史 2 分布式系统 可靠性 可扩展性 可维护性 4 单机引擎的问题 事务 写入和存储 数据的序列化 3 GFS Google File System master 的快速恢复性和可用性保障 数据写入的优化 4 MapRe
大数据
big data
MapReduce
Hadoop
hbase MapReduce程序样例入门
hbase MapReduce程序样例入门 1 先看一个标准的hbase作为数据读取源和输出源的样例 Configuration conf HBaseConfiguration create Job job new Job conf job
毕设进度
MapReduce
Hbase
05-分布式计算框架
目录 一 MapReduce 1 简介 2 原理 2 1 基本概念 2 2 程序执行过程 2 3 作业运行模式 二 Spark 1 简介 1 1 背景 1 2 概念 1 3 特点 2 原理 2 1 编程模型 2 2 运行模式 2 3 运行过
大数据入门
大数据
MapReduce
计算框架
RDD
MapReduce实现TopN的效果
1 背景 最近在学习Hadoop的MapReduce 此处记录一下如何实现 TopN 的效果 以及在MapReduce中如何实现 自定义分组 2 需求 我们有一份数据 数据中存在如下3个字段 订单编号 订单项和订单项价格 输出的数据 需求如
Hadoop
MapReduce
大数据
mapreduce分组
mapreduce topN
Hadoop学习笔记之如何运行一个MapReduce程序
Hadoop学习笔记之如何运行一个MapReduce程序 MapReduce可以分为两个阶段来处理 一个阶段为map 另一个阶段为reduce 每个阶段都有键值对的输入和输出参数 输入输出键值对的类型由程序决定 程序同样指定了两个函数 ma
MapReduce
office2021与365你还在纠结吗?快来看看
有不少小伙伴跟我说自己用的 Office 存在各种问题 比如字体颜色下拉菜单点不动 文件打不开 或者经常卡顿 闪退等 出现这些问题 多半是因为装了盗版 Office 或者没有将 Office 更新至最新版 所以 解决这些问题的根本方法还是使
Microsoft
数据库
大数据
Cloudera
MapReduce
Mapreduce学习基础
一 Mapreduce的基础 1 1 为什么要学习Mapreduce 1 单机资源受限 比如CPU 磁盘 2 分布式计算的程序的复杂度特别高 难度大 mapreduce就是解决以上问题的 1 利用集群的所有cpu 所有内存 所有磁盘 2 m
MapReduce
Hadoop
学习
hive原理与源码分析-hive源码架构与理论(一)
什么是Hive 数据仓库 存储 查询 分析大规模数据 SQL语言 简单易用的类SQL查询语言 编程模型 允许开发者自定义UDF Transform Mapper Reducer 来更简单地完成复杂MapReduce无法完成的工作 数据格式
分布式
MapReduce
Hadoop
源码
架构
Doris编译
使用Doris 官方不提供编译好的jar包 需要自己编译 最方便的方式是通过Docker编译 避免了安装各种环境的繁琐 一 准备服务器 用虚拟机 云服务器都可以编译 不过编译所需要的内存以16G为佳 如果你的机器没有这么多内存 速度会比较慢
hadoop实战
Java
Hadoop
HDFS
MapReduce
大数据--Hadoop环境部署(4)Hadoop集群部署
Hadoop集群的部署方式分为三种 分别是独立模式 Standalone mode 伪分布式模式 Pseudo Distributed mode 和完全分布式模式 Cluster mode 独立模式和伪分布式模式主要用于学习和调试 完全分布
大数据
Hadoop
HDFS
MapReduce
分布式
Exception in thread “main“ ExitCodeException exitCode=-1073741515
Exception in thread main ExitCodeException exitCode 1073741515 今天在本地使用Mapreduce执行单词计数时出现了问题 在网上进行方法查找方法 首先 我先尝试将hadoop安装
Hadoop高手之路
Hadoop
MapReduce
阿里云ecs上的一次神奇操作导致系统盘被占用但是找不到数据在哪里问题
问题描述 在Linux中使用df hT命令查看硬盘占用情况 系统盘显示占用92 但是使用du h max depth 1 查看 目录实际占用情况 并没有全部占用 重上面两个图可以看出系统盘实际使用才36G 多出来51G被谁偷走了呢 问题出现
help
Linux
Hadoop
MapReduce
SparkStreaming知识总结
一 流式计算的概述 1 1 什么是流式计算 1 数据流与静态数据的区别 数据流指的就是不断产生的数据 是源源不断 不会停止 静态数据指的就是存储在磁盘中的固定的数据 2 流式计算的概念 就是对数据流进行计算 由于数据是炼苗不断的产生的 所以
大数据那些事
big data
spark
MapReduce
Hadoop2.6(新版本)----MapReduce工作原理
最近在研究Hadoop 发现网上的一些关于Hadoop的资料都是以前的1 X版本的 包括MapReduce的工作原理 都是以前的一些过时了的东西 所以自己重新整理了一些新2 X版本的MapReduce的工作原理 下面我画了一张图 便于理解M
大数据与云计算
大数据生态系统技术
Hadoop
MapReduce
yarn
Hadoop序列化案例
Hadoop序列化案例 统计每一个手机号耗费的总上行流量 总下行流量 总流量 数据 1 13736230513 192 196 100 1 www baidu com 2481 24681 200 2 13846544121 192 196
Hadoop
大数据
MapReduce
将程序打成jar包后运行mapReduce时出现File does not exit: hdfs://localhost....jar
出现的问题 解决方法 直接向报错路径添加报错提示的文件
MapReduce
jar
hadoop MapReduce总体工作机制简述
问题导读 1 如何理解MapTask运行机制 2 如何理解Map阶段机制 3 如何理解ReduceTask 工作机制 4 如何理解MapReduce总体工作机制 MapTask运行机制详解整个Map阶段流程大体如图所示简单概述inputFi
Hadoop
MapReduce
TFIDF算法Hadoop实现
程序说明 利用MapReduce计算框架 计算一组英文文档中各个单词的TFIDF 某单词在某文档的TFIDF 该单词中该文档的TF 该单词IDF 其中 TF i j 单词i在文档j中出现的频率 Term Frequency TF i j N
大数据分析
MapReduce
大数据
Hadoop
MapReduce框架原理之ReduceTask工作机制
一 Reduce Task 并行度决定机制 reduce task的并行度 也就是同时开启了几个reduce task 分为两种情况 1 如果我们自己定义了分区器 我们能够确定自己的分区器能够形成几个物理分区 加入我们要生成5个分区 那么我
Hadoop生态圈
Hadoop
MapReduce
IDEA运行Maven打包项目编译报错:不再支持源选项 5。请使用 6 或者更高版本。不再支持目标选项 1.5。请使用 1.6 或更高版本。
IDEA运行Maven打包项目编译报错 不再支持源选项 5 请使用 6 或者更高版本 不再支持目标选项 1 5 请使用 1 6 或更高版本 最近学习大数据 利用mapreduce进行WordCount单词计数测试 在IDEA中建好Maven
报错解决
intellijidea
Maven
Java
MapReduce
«
1 ...
17
18
19
20
21
22
23
...27
»