大数据好不好学,有这几大步骤你就懂了

2023-11-13

很多初学者在萌生向大数据方向发展的想法之后,不免产生一些疑问,

应该怎样入门?

应该学习哪些技术?

学习路线又是什么?

 

所有萌生入行的想法与想要学习Java的同学的初衷是一样的。岗位非常火,就业薪资比较高,,前景非常可观。基本都是这个原因而向往大数据,但是对大数据却不甚了解。

 

如果你想学习,那么首先你需要学会编程,其次你需要掌握数学,统计学的知识,最后融合应用,就可以想在数据方向发展,笼统来说,就是这样的。但是仅仅这样并没有什么帮助。

现在你需要问自己几个问题:

  • 对于计算机/软件,你的兴趣是什么?
  • 是计算机专业,对操作系统、硬件、网络、服务器感兴趣?
  • 是软件专业,对软件开发、编程、写代码感兴趣?
  • 还是数学、统计学专业,对数据和数字特别感兴趣。
  • 你自己的专业又是什么?

如果你是金融专业,你可以学习,因为这结合起来你自己的专业,将让你在只有你专业知识的竞争者之中脱颖而出,毕竟现在AI+已经涉及到金融行业了。

说了这么多,无非就是想告诉你,大数据的三个大的发展方向:

  • 平台搭建/优化/运维/监控;
  • 大数据开发/ 设计/ 架构;
  • 数据分析/挖掘。

请不要问我哪个容易,只能说能挣钱的都不简单。

我还是要推荐下我自己创建的大数据资料分享群142973723,这是大数据学习交流的地方,不管你是小白还是大牛,小编都欢迎,不定期分享干货,包括我整理的一份适合零基础学习大数据资料和入门教程

 

说一下大数据的四个典型的特征:

  • 数据量大;
  • 数据类型繁多,(结构化、非结构化文本、日志、视频、图片、地理位置等);
  • 商业价值高,但需要在海量数据之上,通过数据分析与机器学习快速的挖掘出来;
  • 处理时效性高,海量数据的处理需求不再局限在离线计算当中。

 

现如今,为了应对大数据的这几个特点,开源的大数据框架越来越多,越来越强,先列举一些常见的:

  • 文件存储: N、Mesos
  • 日志收集:Flume、Scribe、Logstash、Kibana
  • 消息系统:Kafka、StormMQ、ZeroMQ、RabbitMQ
  • 查询分析:Hive、Impala、Pig、Presto、Phoenix、SparkSQL、Drill、Flink、Kylin、Druid
  • 分布式协调服务:Zookeeper
  • 集群管理与监控:Ambari、Ganglia、Nagios、Cloudera Manager
  • 数据挖掘、机器学习:Mahout、Spark MLLib
  • 数据同步:Sqoop
  • 任务调度:Oozie

是不是眼花缭乱了,上面的这些内容,别谈精通了,就算全部都会使用的,应该也没几个。咱们接下来就大数据开发/ 设计/ 架构方向来了解一下学习路线。

在接下的学习中,不论遇到什么问题,先试试搜索并自己解决。Google首选,其次百度。

于入门者而言,官方文档永远是首选文档。

 

第一章:Hadoop

在大数据存储和计算中Hadoop可以算是开山鼻祖,现在大多开源的大数据框架都依赖Hadoop或者与它能很好的兼容。

关于Hadoop,你至少需要搞清楚这些是什么:

  • Hadoop 1.0、Hadoop 2.0
  • MapReduce、HDFS
  • NameNode、DataNode
  • JobTracker、TaskTracker
  • Yarn、ResourceManager、NodeManager

自己学会如何搭建Hadoop,先让它跑起来。建议先使用安装包命令行安装,不要使用管理工具安装。现在都用Hadoop 2.0。

 

 

H

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

大数据好不好学,有这几大步骤你就懂了 的相关文章

  • Qt的D和Q指针

    Qt的D指针和Q指针 实际上就是一个类的成员指针变量 改变量指向另一个Private类对象 这个Private类对象中包含了一系列的成员和函数 这样做的目的 1 可以对外隐藏数据内容 2 防止改变类的数据模型 从而做到二进制兼容 Q DEC
  • 微信分享签名无效php_【求助】微信分享朋友圈失效

    该楼层疑似违规已被系统折叠 隐藏此楼查看此楼 document ready function var islogin islogin val var area id sessionStorage getItem list area id v
  • 基于径向基神经网络的数据回归预测及matlab实现

    基于径向基神经网络的数据回归预测及matlab实现 径向基神经网络 Radial Basis Function Neural Network RBFNN 是一种常用的人工神经网络模型 其结构简单 学习速度快 精度高 并且具有良好的适应性 泛

随机推荐

  • Linux 离线升级 pip

    首先在一台有网的地方下载 pip3 download pip i http mirrors aliyun com pypi simple trusted host mirrors aliyun com 然后将这个pip xxx none a
  • 用JS获取小数点后两位数字方法

    1 最笨的办法 1 function get 2 3 var s 22 127456 4 var str s substring 0 s indexOf 3 5 alert str 6 2 正则表达式效果不错 1
  • win7下安装rhel7(redhat enterprise Linux 7) 双系统

    首先需要的材料是 win7 rhel7 ISO镜像 和 EasyBCD 然后将磁盘格出3个分区 卷标分别是 I RHEL7 J GEN 和K SWAP 要注意格出来的三个分区都是FAT32格式的 NTFS Linux不认 我分的大小是I 1
  • 如何使用万用表测量三级管的阻值

    1 三极管是含有两个PN结的半导体器件 根据两个PN结连接方式不同 可以分为NPN型和PNP型两种不同导电类型的三极管 测试三极管要使用万用电表的欧姆挡 并选择R 100或R 1k挡位 假定我们并不知道被测三极管是NPN型还是PNP型 也分
  • 你现在需要知道的 C# 10 的 5+1 特性

    距离 C 10 正式发布仅剩两个月 微软开启了关于其 C 语言第十版的新特性和功能的讨论 这些增强功能是在C 10 0 Preview 7 中宣布的 微软将在下一版 C 10 中实现的功能和改进如下 记录类型可以密封 ToString 现在
  • ES底层原理知识(无代码篇)

    版本更新知识 ES 删除映射类型 爱码网 1 Index索引 包含了一堆有相似数据结构的文档数据 一个索引包含很多document 一个索引就代表一类相似或者相同的document 索引简单来说就相对于关系型数据库的库 2 Type类型 每
  • 小程序-picker组件的使用、数据回显

    picker组件的使用 通过点击picker选择器 触发bingchange绑定的事件函数 在picker组件自定义data i I 在事件函数中通过e target dataset i获取到data i里的值 这里的i代表数组中对象的下标
  • 09_Uboot启动流程_1

    目录 链接脚本u boot lds详解 U Boot启动流程详解 reset函数源码详解 lowlevel init函数详解 s init函数详解 链接脚本u boot lds详解 要分析uboot的启动流程 首先要找到 入口 找到第一行程
  • ABAP 基础语法

    表的声明的格式为 tables 表名 变量定义 其中 v1是变量名 l 是变量的长度 t是数据类型 d是小数位 xxx 是缺省值 data v1 l type t decimals d value xxx 定义了一个10位长度3位小数缺省值
  • 多年收集的一些稀有软件1

    QQ 365543212 PTC系列产品 PTC Creo 5 0 1 0 HelpCenter Full Multilanguage Win64 2DVD PTC Creo 4 0 M050 HelpCenter Full Multila
  • mysql 锁级别说明 一

    1 锁的类型 MySQL各存储引擎使用了三种类型 级别 的锁定机制 表级锁定 行级锁定和页级锁定 锁级别 存储引擎 表级别 table level MyISAM MEMORY CSV 行级别 row level inndb 页级别 page
  • Docker Compose初体验(Centos7中docker-compose安装MySQL+Redis)

    一 docker compose介绍 官网介绍 Compose 是用于定义和运行多容器 Docker 应用程序的工具 通过 Compose 您可以使用 YML 文件来配置应用程序需要的所有服务 然后 使用一个命令 就可以从 YML 文件配置
  • 为什么说 Serverless 是云的未来?

    简介 对于大多数应用而言 借助 Serverless 服务 开发者可以将绝大多数精力投入在业务逻辑的开发整合上 大大缩短开发周期 降低运维成本 有人说 Serverless 正在改变未来软件开发的模式和流程 它就是云计算的未来 技术领域真正
  • Vue 生命周期和数据共享

    Vue 生命周期和数据共享 1 组件的生命周期 1 1 生命周期与生命周期函数 1 2 组件生命周期函数的分类 1 3 生命周期图示以及详解 2 组件之间的数据共享 2 1 组件之间的关系 2 2 父向子传值 2 3 子向父传值 2 4 兄
  • 降低指定进程的CPU占用率(适合游戏多开)

    应用场景举例 推荐BES软件 应用场景举例 游戏多开 比如 天书世界 网页游戏 单开占用CPU30 左右 最小化能够降低到10 以下 如果多开 那么CPU就是叠加累计 非常占用CPU资源 而且挂机严重影响CPU温度 1 采用最小化窗口的方式
  • CV综述目标检测整理---目录

    CV综述目标检测整理 目录 Object detection yolo系列 yolov3 从yolo入门目标检测 链接 YOLOV3论文解读与应用 https blog csdn net weixin 42466194 article de
  • codeforces 733D--Kostya the Sculptor

    Description Kostya is a genial sculptor he has an idea to carve a marble sculpture in the shape of a sphere Kostya has a
  • 威胁情报

    2020 05 01 引言 之前总是看到各种威胁情报 各种乱七八糟的定义 各种什么高级的词汇 什么上下文 什么攻击 统统看不懂 但是你去搜索威胁情报 国内几家比较知名的 或者说国外的 发现他们的网站提供的服务 就是IP 域名 文件检测这些内
  • MyEclipse报错:Multiple markers at this line

    Multiple markers at this line The type java io ObjectInputStream cannot be resolved It is indire 出错原因 jdk版本太高 不兼容而引起的问题
  • 大数据好不好学,有这几大步骤你就懂了

    很多初学者在萌生向大数据方向发展的想法之后 不免产生一些疑问 应该怎样入门 应该学习哪些技术 学习路线又是什么 所有萌生入行的想法与想要学习Java的同学的初衷是一样的 岗位非常火 就业薪资比较高 前景非常可观 基本都是这个原因而向往大数据