了解数据的发展历程--大数据简史

2023-11-20

数据技术的发展历史就是人类追求美好生活过程最真实的写照。

大数据分析的历史与未来展望

最早的数字不是阿拉伯人发明的,数字的起源如同文字起源一样古老。

结绳记事

绳结记事

《易九家言》中记载“事大,大结其绳;事小,小结其绳,之多少,随物众寡”,即根据事件的性质、规模或所涉及数量的不同结系出不同的绳结。

人们最早可以使用各种颜色,各种材质,粗细不同等绳子构建出数百个绳结词汇,以此来记载进行完整的有效记载。

记数法

数字进入我们的生活是从农耕文明的兴起开始的,人们日出而作,日落而息。农闲时有了观察的时间,人们积累的数据开始增加,结绳记事已经满足不了人们的日常需求,需要有一种新的方式来记录白天时长,气候变化等等。在当时,我们就有了某种抽象的符号来承载这些信息。

记数法

印度-阿拉伯数字系统是一系列的十进制进位制的计数系统,起源于9世纪的印度。

此系统像一种语系,当地的很多文字系统的不同记数符号都是起源于此系统。

起源于印度的婆罗米数字,在中世纪时传入中东和西方。各个地区根据当地的文字系统改造了其数字字符。现在还在使用的三大分支是:

  • 西方阿拉伯数字,世上最流行的记数系统
  • 阿拉伯文数字,中东和西亚地区最流行的记数系统
  • 印度数字,印度祖传的记数系统

赌博催生了概率论

概率论

在十七世纪中叶,法国有一个好赌的贵族德·美黑写信向当时法国的数学家帕斯卡请教骰子赌博时赌资分配的问题(甲乙两个人赌博,他们两人获胜的机率相等,比赛规则是先胜三局者为赢家,一共进行五局,赢家可以获得100法郎的奖励。当比赛进行到第四局的时候,甲胜了两局,乙胜了一局,这时由于某些原因中止了比赛,那么如何分配这100法郎才比较公平?)。

帕斯卡和数学家费尔玛一起,研究了德·美黑的问题。于是,一个新的数学分支—概率论登上了历史舞台。

1642年,帕斯卡制成了世界上第一台进行6位数加减运算的手摇式机械计算机。

1657年,荷兰著名的天文、物理兼数学家惠更斯写成了《机遇的规律》一书,是最早的概率论著作,这本书提出了一个概念–数学期望。

使用数学期望来解决这个问题的话:因为甲输掉后两局的可能性只有(1/2)×(1/2)=1/4,也就是说甲赢得后两局或后两局中任意赢一局的概率为1-(1/4)=3/4,甲有75%的期望获得100法郎;而乙期望赢得100法郎就得在后两局均击败甲,乙连续赢得后两局的概率为(1/2)*(1/2)=1/4,即乙有25%的期望获得100法郎奖金。

可见,虽然不能再进行比赛,但依据上述可能性推断,甲乙双方最终胜利的客观期望分别为75%和25%,因此甲应分得奖金的100*75%=75(法郎),乙应分得奖金的的100×25%=25(法郎)。

著名数学家雅格布·伯努利仔细阅读过好友惠更斯的《机遇的规律》一书,由此启发了其对概率论的兴趣,他在1705年去世前完成的《推测术》,直到1713年才正式出版,这本书是概率论的第一本专著。

人口社会调查催生了数理统计

  • 中国

    • 大禹治水

      根据山川土质,人力和物力的多寡,分全国为九州;

      殷周时代实行井田制,按人口分地,进行土地和户口的统计;

    • 黄册和鱼鳞册

      明代编制了黄册(全国户口名册)与鱼鳞册(全国土地图籍),绘有地形,完全具有现代化统计图表的性质

  • 西方

    • 埃及金字塔

      为征收建筑费用,对全国人口进行普查和统计

    • 亚里士多德时代

      统计在卫生、保险、国内外贸易、军事和行政管理上的应用都有详细记载

    • 大数定律

      伯努利等人提出了“大数定律”,奠定了数据推导规律,并用于决策的基础

数据分析与统计的应用–格朗特与死亡公报

从1604年开始,伦敦教会每周会发布一次死亡公报(Bills of Mortality),因为受当时战争、黑死病的影响,伦敦教会每周会公布一次死亡和受洗者的名单(使用死因分类),在1612年公报中就有了63种死因分类。

格朗特认为,儿童死亡发生在5岁以下的概率为三分之一,6岁以下为二分之一,仅有百分之七的可能性寿终正寝。以此估算出伦敦16-56的成年男性占据当时总人口的34%,有7万人会死于黑死病。

  • 统计学领域的第一个经典文献’Natural and Political Observations Made upon the Bills of Mortality’
  • 创造了第一张生命表(Life Table),计算期待寿命
  • 生命表奠定了生存模型的发展,是现代顾客生命周期管理的建模基础
  • 试图通过建立和生产模型来分析和描述黑死病的传播
  • 开创性提出了在不确定性条件下做出决策所需要的关键理论概念:抽样、平均数对未来事件的概率的置信程度等等。让统计分析成为了一门科学

数据分析与统计的应用–斯诺与霍乱

斯诺认真的访问了有霍乱患者的家庭,详细登记了患者的姓名、年龄、疾病发作时间、卫生条件以及是否喝过疑似污染水源的百老汇街区的水,最终得出结论:

  • 霍乱是通过饮用水传播

  • 将病例的分布画在一张地图上,这样可以一目了然的看到围绕哪个水泵周围的居民,发病与显著高于伦敦市其他地方

霍乱地图

  • 伦敦霍乱爆发地图成为数据可视化的开山之作

数据库的起源–打孔卡

1880年美国进行人口普查的数据全靠手工处理,历时7年才得到结果。

同年,美国人口调查局职员霍列瑞斯发明了用于人口普查数据的穿孔卡片及机器,并用于1890年美国人口普查,仅6周就完成了统计。

霍列瑞斯后来创建了一个公司,叫做制表机公司,但是他后来还有一个名字叫做国际商用机器公司(IBM)。

二战时的应用

美军运筹研究人员从战场调查入手,采用统计评估的方法将作战详报转换为统计数据,并建立起数据与研究问题之间的联系。

  • 大型战舰

    大幅度机动遭神风敢死队命中率为22%,明显小于不采取机动的49%

    大幅度机动防空武器命中率为78%,不机动时为74%

  • 小型战舰

    大幅度机动遭神风敢死队命中率为36%,高于不采取机动的26%

    大幅度机动防空武器命中率为59%,略低于不机动时的66%

二战结束后,一大批二战士兵退伍,在他们中有一批人结合当时在军队了解的知识和当时的时政,完成了自己的创业。

商业智能与营销管理理论的兴起

福特汽车的用户画像

罗伯特·麦克纳马拉将现代管理原则引入福特,用数量方法控制成本和产出。

  • 顾客画像,有钱人买进口车,福特开始生产经济型轿车(当时美国本土流行大油耗,大轮胎,车高载货多的车型(皮卡或小卡车),但是有钱人会去进口国外的小型轿车)
  • 数据表明造成行车事故最多的是机械故障,投资改善
  • 数据表明撞车后造成死亡最大的原因是方向盘挤压胸口,发明了新方向盘技术,加保险带。

福特的用户画像策略,使得北美的企业越来越相信数据,再也没有企业拍脑袋决定策略,都是先看过数据后再说。

随着数据积累的越来越多,人们需要一个能够管理数据,快速处理数据的工具。

这时,IBM推出了关系数据库。

关系数据库的出现

1970年,IBM的埃德加·科德博士发表了一篇划时代的论文’A Relational Model of Data for Large Shared Data Banks’(大型共享数据库的关系模型),开启了关系数据库时代,这个模型依旧是现在大多数数据库系统的基础。

1981年,埃德加·科德获图灵奖。

基于关系数据库的系统开始大量应用于企业业务,例如材料需求计划(MPP)系统,就表示了计算机最早的主流商业用途之一。

在计算机的辅助下,人类处理信息的速度空前的加快了。

然后,人们的数据就积累到了过去从来没有想象过的量级,企业就打算用数据来进行一些分析,提升企业的经营。也就引出了商业智能。

商业智能的提出

1958年,IBM研究员汉斯·彼得·卢恩将商业智能(BI)定义为“能够理解所呈现的事物之间的相互关系,从而引导行动朝着预想目标前进的能力”。

1970年,“商业智能”随着用于分析商业和操作性能的新出现的软件和系统的兴起,他的受欢迎程度也越来越高。

随着数据的不断积累,最终引出了数据仓库的概念。

商业营销理论的发展

1970年代,市场营销学开始快速发展

1972年,营销学之父菲利普·科特勒教授出版了《营销管理》一书,提出了4P’s理念,强调企业的发展取决于市场和顾客,而不是由企业的自主愿望驱动的

在管理理念的知道下,数据被大量应用到企业管理的方方面面

市场研究公司开始出现、企业的数据文化开始培养

随着顾客数据越来越全面,4C’s理论要求对顾客进行全方位的了解

企业开始注重用户数据的收集和使用,针对消费者个性化服务成为主流。业务促进技术,最终让数据分析技术更加辉煌。

大数据出现的标志性时间

  • 互联网崛起

    • 1991年

      Tim Berners-Lee定义了超文本规范,标志着万维网的诞生

    • 1998年

      根据R J T Morris和B J J Truskowski在他们2003年的《存储系统的进化》一书中所说,从这一年开始数字存储比纸张成本更低

    • 1998年

      谷歌搜索在这一年第一次亮相,成为搜索互联网数据的工具

  • 数据大爆炸的开启

    • 2004年

      始于出版社经营者O’Reilly和MediaLive International之间的一场头脑风暴论坛,WEB2.0诞生,即用户生产的web,其中大部分内容由服务的用户提供,而不是服务提供者本身。这为数据大爆炸提供了基础。

    • 2004年

      FackBook这样的社交网站出现,数据大爆炸开始

    • 2005年

      Hadoop这个开源框架被创造出来,专门用于存储和分析大数据集。他的灵活性使他对管理非结构化数据(语音、视频、原始文本)特别有用,我们正在越来越多的生产和收集这些数据。

大数据时代

  • 大数据时代的来临

    • 零售商、银行、制造商、电信供销商和保险公司等都在利用数据挖掘技术,从定价、促销和人口统计数据,到经济、风险、竞争和社交媒体如何影响他们的商业模式、收入、运营和客户关系等各个领域之间的关系。
    • 制造业存在大量的设备,通过感应器采集不同类型的数据获得如音响、震动、压力、电流、电压和控制器的数据,大量的数据构建制造业的大数据,作为设备诊断和健康管理分析工具的输入项
    • 媒体的大数据应用,针对不同用户调整消息(广告)和内容(文章)
  • 机器学习的革命性突破

    • 基于深度学习的神经网络强势崛起,给工业界带来了深刻的变革和机遇。深度学习的成功不是源自脑科学或认知科学的进展,而是因为大数据的驱动和计算能力的极大提升。

大数据人才培养路线

  • 数据管理

    • Python
    • SQL
    • Hadoop
    • 云计算
    • Excel
  • 运营报表

    • KPIs
    • 数据分析
    • 沟通技能
    • WOW
  • 洞察分析

    • 营销分析与优化
    • 特定业务问题分析
    • 战略分析
    • PPT演示
  • 算法模型

    • 统计检验与回归决策树
    • 篮分析
    • 人工智能

数据驱动决策

  • 建立目标

    • 确认业务目标
    • 提高数据技能和完善的项目管理与执行能力
    • 获取行业领域知识
  • 数据整合

    • 查找数据源和集成
    • 编程技巧与效率
    • 数据QA流程
    • 获取数据清洗、变换、整合的技术能力
  • 分析方案

    • 计算方式
    • 有效的报表设计和计量设计
    • 营销前分析
    • 典型的分析方法
  • 呈现与建议

    • 洞察于建议
    • 向非技术客户展示分析结果
    • 使用数据回答企业的问题
    • 商务交际的最佳实践
  • 测量与评估

    • 执行后分析
    • 后分析中得出统计上正确的答案
    • 可操作性的洞察结果

成长路线

  • 第一阶段

    • 数学
    • 统计学
    • 计算机基础知识
  • 第二阶段

    • R
    • Python
    • Java
    • SAS
    • Hadoop
    • 云计算
  • 第三阶段

    • 数据库
    • 数据存储
    • 数据质量控制
  • 第四阶段

    • 数据处理
    • 数据计算
    • 数据可视化
    • BI报表制作
    • 数据项目管理
  • 第五阶段

    • 算法
    • 数据挖掘技术
  • 第六阶段

    • 数据科学家
  • 第七阶段

    • CDO/CXO

最后,说一句让我感触很深的话:人的大脑不是用来记忆的,是用来思考的。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

了解数据的发展历程--大数据简史 的相关文章

  • 【python数据挖掘课程】二十七.基于SVM分类器的红酒数据分析

    这是 Python数据挖掘课程 系列文章 前面很多文章都讲解了分类 聚类算法 这篇文章主要讲解SVM分类算法 同时讲解如何读取TXT文件数据并进行数据分析及评价的过程 文章比较基础 希望对你有所帮助 提供些思路 也是自己教学的内容 推荐大家
  • TS装饰器

    一 定义 装饰器本质是一种函数 通过添加标注的方式 对数据 类 方法 属性 参数等 的功能进行增加或者修改 二 使用 准备工作 ts config json文件中 1 基础使用 装饰器名字 例子 function test target a
  • 《塞尔达传说:旷野之息》中设计元素的分析

    塞尔达传说 旷野之息 中设计元素的分析 0 写在前面 关于 塞尔达传说 旷野之息 是否属于中型游戏 检索许多资料后 有一种通识是 塞尔达传说 旷野之息 不属于3A级别游戏 显然也不属于小型游戏 因此我姑且认为它属于中型游戏 这也符合此篇的初

随机推荐

  • crypto-js md5加密和解密

    直接上代码 import CryptoJS from crypto js const encodeFactor zq87dopenf67eg 加密 export function encrypt txt var key CryptoJS e
  • 服务攻防-中间件安全&CVE复现&IIS&Apache&Tomcat&Nginx漏洞复现

    目录 一 导图 二 ISS漏洞 中间件介绍 gt 1 短文件 2 文件解析 3 HTTP SYS 4 cve 2017 7269 三 Nignx漏洞 中间件介绍 gt 1 后缀解析漏洞 2 cve 2013 4547 3 cve 2021
  • openstack平台搭建笔记(容器云)

    openstack平台搭建笔记 容器云 一 根据要求准备好配置环境 节点IP 角色 备注 192 168 100 30 Master Kubernetes 集群 master 节点 Harbor 仓库节点 192 168 100 31 Wo
  • C# 快速写入日志 不卡线程 生产者 消费者模式

    有这样一种场景需求 就是某个方法 对耗时要求很高 但是又要记录日志到数据库便于分析 由于访问数据库基本都要几十毫秒 可在方法里写入BlockingCollection 由另外的线程写入数据库 可以看到 在我的机子上面 1ms写入了43条日志
  • html5 自动化测试工具,五大最佳自动化测试工具

    对更快交付高质量软件 或 快速质量 的需求要求组织以敏捷 持续集成 CI 和DevOps方法论来寻找解决方案 测试自动化是这些方面的重要组成部分 最新的 2018 2019年世界质量报告 表明 测试自动化是实现 快速质量 的最大瓶颈 因为它
  • 四位数显表头设计

    去年帮别人定制了一个四位数显小表头 可以用于测量4 20mA或者0 5V 0 10V输出的的各种传感器 可设置显示范围 上下限报警灯 由于后面更改方案 此方案暂时搁置不用 今天来分享一下软硬件的设计过程 1 硬件设计 1 1电源 电源采用一
  • Flink_06_ProcessAPI(个人总结)

    声明 1 本文为我的个人复习总结 并非那种从零基础开始普及知识 内容详细全面 言辞官方的文章 2 由于是个人总结 所以用最精简的话语来写文章 3 若有错误不当之处 请指出 侧输出流 SideOutput 即分支流 可以用来接收迟到数据 也可
  • SpringBoot实现接口版本控制

    一个系统在上线后会不断迭代更新 需求也会不断变化 有可能接口的参数也会发生变化 如果在原有的参数上直接修改 可能会影响到现有项目的正常运行 这时我们就需要设置不同的版本 这样即使参数发生变化 由于老版本没有变化 因此不会影响上线系统的运行
  • python的UnboundLocalError: local variable 'xxx' referenced before assignment

    From http blog sina com cn s blog 8d3652760101d01p html 一 意思 本地变量xxx引用前没定义 二 错误原因 在于python没有变量的声明 所以它通过一个简单的规则找出变量的范围 如果
  • OPENV接收和发送串口的数据

    import sensor image time from pyb import UART from pyb import Pin Timer LED import re sensor reset sensor set pixformat
  • qt 开发遇到的坑

    1 QString的toString 和toWString 引起的win32位release 下std string的析构崩溃 代码 QString qs std string str qs toStdString const wchar
  • Linux NFS说明,配置及故障分析

    一 NFS服务简介 NFS 是Network File System的缩写 即网络文件系统 一种使用于分散式文件系统的协定 由Sun公司开发 于1984年向外公布 功能是通过网络让不同的机器 不同的操作系统能够彼此分享个别的数据 让应用程序
  • MATLAB:figure的用法

    figure的定义 figure 创建图窗窗口 可以理解为创建一个有画板的窗口 我们在这块画板上绘制 plot 曲线等 figure主要是创建图窗窗口或者切换图窗窗口 figure n 查找到n存在时 将当前窗口切换成n 不存在时创建标识为
  • Java的String类、Object类、包装类

    1 String类 1 1 String类的两种实例化方式 1 直接赋值 String str hello 2 使用构造方法new的形式赋值 String str new String hello 1 2 String类定义的字符串的比较
  • Eclipse安装SVN插件

    http subclipse tigris org servlets ProjectProcess jsessionid A870EAC9A292637E167F9719F6399F60 pageID p4wYuA Installation
  • Binary Tree on Plane【费用流】

    题目链接 CF 277 E 题意翻译 给你平面上 n 个点 2 n 400 要求用这些点组成一个二叉树 每个节点的儿子节点不超过两个 定义每条边的权值为两个点之间的欧几里得距离 求一个权值和最小的二叉树 并输出这个权值 其中 点 i 可以成
  • Qt导出库接口类无法connect信号

    问题 动态库中的接口类内部有信号 但是在主程序中无法connect 链接时报错 undefined symbol xxx staticMetaObject 解决 在接口类前加导出标记 参考动态库的隐式调用 一般接口类如果不需要继承实现的话
  • 2013年9月22日---2013年10月5日(每天1小时,共15小时,还有5050小时)

    之所以写每天1小时 是因为这段时间浮躁了 面临培训 过于兴奋 另外一个是假期闹得 不过 每天1小时肯定有 为了这1万小时的计算不浮夸 宁可少一些
  • 一个boot.oat crash问题的分析

    最近遇到一个手机重启的问题 日志如下 05 18 13 42 55 553 I AEE AED 10514 pid 1734 tid 1788 name android ui gt gt gt system server lt lt lt
  • 了解数据的发展历程--大数据简史

    数据技术的发展历史就是人类追求美好生活过程最真实的写照 大数据分析的历史与未来展望 最早的数字不是阿拉伯人发明的 数字的起源如同文字起源一样古老 结绳记事 易九家言 中记载 事大 大结其绳 事小 小结其绳 之多少 随物众寡 即根据事件的性质