大数据技术原理与应用---笔记一:大数据概论

2023-10-30

1.大数据概念

1.1 4v说法

1.数据量大(volume)
2.数据类型繁多(variety)
3.处理速度快(velocity)
4.价值密度低(value)

1.2 大数据的影响

对科学研究的影响

4种范式:
1.实验科学
2.理论科学
3.计算科学
4.数据密集型科学(大数据时代产生的)

对思维方式影响

1.全样并非抽样
2.效率并非精准
3.相关并非因果

2.大数据相关技术

2.1大数据基本处理流程

1.数据采集与预处理
2.数据存储与管理(核心技术)
3.数据处理与分析(核心技术)
4.数据结果展现

3.大数据计算模式

不同业务场景有不同的大数据产品去解决问题
以下为主要几种业务场景

计算模式 解决问题 代表产品
批处理计算 大规模数据批量处理 Mapreduce,Spark
流处理计算 流数据的实时计算 S4,Storm,Flume,银河流数据处理平台
图计算 大规模图结构的处理 GraphX,Hama,Pregel
查询分析计算 大规模数据存储管理和查询分析 Hive.Dremel,Impala

大数据产业

Iaas: 基础设施即服务(阿里云,腾讯云卖云服务器的)
Paas: 平台即服务(卖开发环境的,卖家搭建好开发环境)
Saas: 软件即服务(卖软件的)

参考书籍

大数据技术

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

大数据技术原理与应用---笔记一:大数据概论 的相关文章

随机推荐

  • layui自定义打印

    效果图如下 自定义内容导出 自定义表格导出 目录 一 自带的打印功能的实现 1 下载新的layui的js文件 2 添加toolbar参数 3 最终打印图标显示 4 点击打印图标 实现打印效果 5 隐藏打印功能 二 自定义打印内容的实现 1
  • nginx proxy_pass规则

    文章目录 nginx部分配置格式 proxy pass规则 1 proxy pass不带url情况 2 proxy pass带url情况 总结 以下附带一个简单的伪代码 新领悟 nginx部分配置格式 server listen 5000
  • 大数据从入门到精通(超详细版)之Hive的DQL操作,学不会算我输!!!

    前言 嗨 各位小伙伴 恭喜大家学习到这里 不知道关于大数据前面的知识遗忘程度怎么样了 又或者是对大数据后面的知识是否感兴趣 本文是 大数据从入门到精通 超详细版 的一部分 小伙伴们如果对此感谢兴趣的话 推荐大家按照大数据学习路径开始学习哦
  • 达梦实现高可用性的实现(failover功能/负载均衡/虚拟ip透明切换)

    达梦实现高可用性的实现 failover功能 负载均衡 虚拟ip透明切换 一 failover功能 基于守护进程和监视器两个内在工具实现 守护进程 监视器 数据守护和读写分离集群 共享存储集群 二 负载均衡 基于jdbc接口和客户端实现读写
  • XSS-Game level 11

    第十一关通过 Referer 利用事件绕过 先看源码 本关有三个参数 keyword 使用 htmlspecialchars 转译 并输出到页面 难度较大 第二个参数 t sort 使用 htmlspecialchars 转译后拼接到 va
  • Dubbo服务控制台Dubbo Admin配置

    Dubbo服务使用Zookeeper作为服务注册中心 Zookeeper对我们来讲是一个黑框 我们无法看到是否存在了什么提供者或消费者 阿里巴巴官方提供了一个Dubbo服务的管理平台Dubbo Admin 提供路由规则 动态配置 服务降级
  • 开源中国iOS客户端学习——(十二)用户登陆

    上一篇博客 开源中国iOS客户端学习 十一 AES加密 中提到将用户名和密码保存到了本地沙盒之中 在从本地读取用户名和密码 这是一个怎样的过程 cpp view plain copy void saveUserNameAndPwd NSSt
  • 《wireshark》怎么抓包

    wireshark是非常流行的网络封包分析软件 功能十分强大 可以截取各种网络封包 显示网络封包的详细信息 可能很多朋友还不知道wireshark怎么抓包 为此小编给大家带来了wireshark抓包教程 不知道的朋友一起来看看吧 iresh
  • leetcode zigzag C++ 争取每日一题,我还是太天真了/(ㄒoㄒ)/~~

    include
  • 数字信号谱估计方法对比仿真——估计自相关,周期图法,协方差法,burg算法,修正协方差法

    目录 一 理论基础 1 1自相关谱估计 1 2周期图法谱估计 1 3协方差法谱估计 1 4burg算法谱估计 1 5修正协方差谱估计 二 核心程序 三 仿真结论 一 理论基础 自相关谱估计 周期图法谱估计 协方差法谱估计 Burg算法谱估计
  • 如何在两天之内写出一篇学术论文:Pete Carr 教授的高效写作秘籍

    文章目录 一 前言 二 主要内容 三 总结 CSDN 叶庭云 https yetingyun blog csdn net 一 前言 随着科研的不断发展 研究论文已成为每位学者不可或缺的 利器 然而 撰写一篇既有深度又有广度的研究论文却是一项
  • leetcode99-恢复二叉搜索树(两个空间复杂度的解法)

    恢复二叉搜索树 题目 给你二叉搜索树的根节点 root 该树中的 恰好 两个节点的值被错误地交换 请在不改变其结构的情况下 恢复这棵树 示例 思路 嘶 递归递了加一起得两个点 笔试的题是 交换了若干个相邻结点的 恢复成一颗二叉搜索树 估计就
  • 图像处理大作业(用霍夫变换检测硬币及统计硬币个数,并设计GUI界面)

    实现所给硬币图像中的硬币检测及计数 要求完成功能 自行查找 阅读有关的采用Hough变换来检测图像中圆的资料 设计实现所给图像中圆形的检测 要求检测出图像中硬币个数以及各个硬币的直径 本题难度系数 GUI界面设计参考 MATLAB学习笔记
  • obsidian图片链接转换成markdown语法,不关闭wiki链接

    问题 近期尝试使用了obsidian作为我的笔记软件 但是发现obsidian的图片链接会自动使用wiki链接的方式保存 比如这样的格式 图片路径 但是这样的路径 一般的markdown编辑器是识别不了的 这一点我比较不喜欢 因为我想在使用
  • web下载七牛云上面的图片资源

    本文将怎么通过浏览器打包下载七牛云服务器上面的图片资源 如果不用压缩打包处理 可以直接获取流后用对应的out输出就行 不做具体解析 1 先讲怎么打包下载吧 ZipOutputStream我用的是这个工具类 创建 ZipOutputStrea
  • RL-RTX小读之os_sem_wait

    rtl h中定义了 define os sem wait sem tmo os sem wait U32 rt sem wait sem tmo rt sem wait的实现如下 OS RESULT rt sem wait OS ID se
  • for循环遍历列表的注意事项

    一图流
  • 环形链表

    LeetCode 环型链表 给定一个链表 返回链表开始入环的第一个节点 如果链表无环 则返回 null 为了表示给定链表中的环 我们使用整数 pos 来表示链表尾连接到链表中的位置 索引从 0 开始 如果 pos 是 1 则在该链表中没有环
  • 用 JavaScript,五分钟将 Siri 接入 ChatGPT(搬运)

    Siri ChatGPT 使用教程 将 Siri 接入 ChatGPT 直接语音唤醒 并且支持连续对话 第一步 拷贝项目 通过 AirCode 源码链接中右上角的 Get a copy 按钮快速生成一个自己的 AirCode Node js
  • 大数据技术原理与应用---笔记一:大数据概论

    大数据概论 1 大数据概念 1 1 4v说法 1 2 大数据的影响 对科学研究的影响 对思维方式影响 2 大数据相关技术 2 1大数据基本处理流程 3 大数据计算模式 大数据产业 参考书籍 1 大数据概念 1 1 4v说法 1 数据量大 v