大数据概述
- 1.1 大数据时代
- 00 简要介绍
- 01 时代背景的支撑
- 1.2 大数据的概念和影响
- 00 大数据的 `4V ` 特性⭐
- 01 大数据的影响
- 1.3 大数据的应用
- 00 影视剧的投拍
- 01 谷歌预测流感
- 03 新冠疫情地区分布图
- 1.4 大数据的关键技术
- 00 大数据技术的层次
- 02 大数据计算模式⭐
- 1.5 大数据与云计算、物联网的关系
- 00 云计算
- 01 物联网
- 1.6 小结
1.1 大数据时代
00 简要介绍
大数据真正被大家所熟知的时候也就是在2010年左右,而大数据的大背景是第三次信息化浪潮,第三次信息化浪潮就是以大数据、云计算、物联网三种新兴技术为代表的人类信息化历史上的第三次浪潮,在这之前,还有两次信息化浪潮,具体如下:
信息化浪潮 | 发生时间 | 标志 | 解决问题 | 代表企业 |
---|---|---|---|---|
第一次浪潮 | 1980年前后 | 个人计算机 | 信息处理 | Intel、AMD、IBM、苹果、微软、联想、戴尔、惠普等 |
第二次浪潮 | 1995年前后 | 互联网 | 信息传输 | 雅虎、谷歌、阿里巴巴、百度、腾讯等 |
第三次浪潮 | 2010年前后 | 物联网、云计算和大数据 | 信息爆炸 | 将涌现出一批新的市场标杆企业 |
01 时代背景的支撑
大数据时代的到来是必然要有一些相关的支撑,首要的就是技术支撑
,主要分为三点:
① 存储 :存储设备容量不断增加
② 计算 :CPU 处理能力大幅提升
③ 网络 :网络带宽不断增加
其次是数据产生方式的变革
:
① 第一阶段(上世纪七八十年代):运营式系统阶段
例如,超市购物时在数据库系统中一条一条的生成购物信息
② 第二阶段(2002年附近):用户原创内容阶段
例如,博客、微博的出现,大众每个人都是自媒体,每个人都可以在网络上发布数据
③ 第三阶段:感知式系统阶段
这一阶段是伴随着物联网的普及开始的,物联网底层是感知层,如摄像头、传感器等,这些设备无时无刻不在感知外界信息,可以说物联网的产生才真正导致了大数据的到来
由此可以简单的概括一下大数据的发展历程:
时间 | 阶段 |
---|---|
上世纪90年代至上世纪末期 | 萌芽期 |
本世纪前十年 | 成熟期 |
2010年以后 | 大规模应用期 |
1.2 大数据的概念和影响
00 大数据的 4V
特性⭐
① 数据量大(Volume 大量化)
- 大数据的摩尔定律
- 人类在最近两年产生的数据量相当于之前产生的全部数据量,其数据产生的非常块
② 数据种类多(Variety 多样化)
- 大数据的数据类型繁多
- 大数据由结构化和非结构化数据组成,其中结构化数据占10%左右,非结构化数据占90%左右
- 结构化就是存储在关系型数据库中的结构化数据
- 非结构化就是图形、图像之类的数据
- 大数据由结构化和非结构化数据组成,其中结构化数据占10%左右,非结构化数据占90%左右
③ 数据产生速度快(Velocity 快速化)
- 从数据的生成到消耗,时间窗口非常小,可用于生成决策的时间非常少
- 不少企业级应用都需要遵守秒级决策定律
④ Value 价值密度低
- 数据量大,价值密度低,商业价值高
- 举个例子:摄像头每时每刻都在产生视频数据,但这其中真正被我们用到的数据很少,如果一整年都没出事,这些一整年的视频数据就没有任何作用,只有出事的那一刻,我们才会用到出事的那一刻的视频数据,这就是数据的价值密度低
01 大数据的影响
① 科学研究的范式变化
- 第一种范式:实验
- 如:伽利略比萨斜塔实验等
- 第二种范式:理论
- 如:几何定论、牛顿三大定律等
- 第三种范式:计算
- 如:
- 第四种范式:数据 (新增)
- 以数据为驱动
- 我们不知道问题是什么,问题在哪,完全是以数据为驱动,通过大数据分析发现问题、解决问题
- 以数据为驱动
② 思维方式的变化⭐
- 全样而非抽样
在之前,数据太多,无法保存和分析,统计学采用抽样,而现在,我们可以对所有数据进行分析
- 效率而非精确
在之前,抽样分析要求的是精确而不是效率,这是因为抽样分析只是抽取部分数据,而不是所有数据,如果抽样计算的结果有误差,放到全样上,误差会被放大;而现在全样分析的误差就是在全样上,我们不需要刻意去追求精确,这时注意的就是效率,因为一些数据是有时效性的,如果当下没有计算出来,那这个数据就失效了
- 相关而非因果
大数据时代,我们不关心它们之间是为什么,我们只关心它们之间相互的关联,例如,你在淘宝买了本书,它还会给你推荐其他书,它不会告诉你为什么,它只会跟你说这些书之间有相关关系
1.3 大数据的应用
大数据的应用有很多,这里仅列举一些例子:
00 影视剧的投拍
在之前,影视剧的投拍多是跟风,看见哪个剧拍了之后火了,其他人也拍这类型的剧,但是它不一定火;而现在,通过大数据分析,我们可以分析出选用哪个演员哪个导演拍什么剧会火,例如,美剧《纸牌屋》就是大数据分析的结果,没有大数据分析,没有人知道要找这个演员和找这个导演然后拍这个剧会火
01 谷歌预测流感
在之前,美国的传统流感预测方式就是各医疗机构层层上报门诊病历,然后由专家汇总分析发布报告,一般来说,这个报告会比真实情况延迟一到两周;而谷歌则是用搜索引擎实时收集各类用户查询信息,通过大数据分析预测流感趋势,这是因为现在大多数人遇到小病时,先是求助搜索引擎,其次才是去医院,这样一来,谷歌就可以根据一些关键字如感冒、发烧去分析流感趋势,其预测结果也和美国疾控中心发布的报告结果基本吻合
03 新冠疫情地区分布图
近两年的新冠疫情,我们经常可以在手机上看到疫情的实时数据更新,其中的疫情地区分布图就是大数据的一个应用
1.4 大数据的关键技术
00 大数据技术的层次
大数据技术在以下四个层次都有发展:
- 数据采集
- 数据存储与管理
- 数据处理与分析
- 数据隐私与安全
但近几年发展的大数据的最核心的技术多在数据存储与管理层和数据处理与分析层,由此可概括的两大核心技术:
① 分布式存储
- 解决海量数据的存储问题
- 一台机器无法存储,我们就借助集群进行分布式存储
② 分布式处理
- 解决海量数据的处理问题
- 一台机器无法高效完成数据处理,我们就借助集群进行分布式处理
大数据技术原理与应用这门课程的主要内容就是将讲这两大核心技术,分布式存储技术与分布式处理技术主要是以谷歌的技术为代表,这其中主要的技术就是 分布式数据库Big Table
、分布式文件系统GFS
、分布式并行处理技术MapReduce
02 大数据计算模式⭐
现在有非常多的大数据技术相关产品的存在,但是企业中不同的应用场景属于不同的计算模式,需要使用不同的大数据技术,因此我们需要学会判断计算模式并选择合适的大数据技术相关产品
① 批处理计算
- 针对问题:
- 大规模数据的批量处理
- 批处理计算的代表产品:
- MapReduce、Spark等
- MapReduce
- MapReduce 是批处理计算模式的典型代表,它就是把一堆数据拿过来作批量处理,它不适合用来做实时的交互式计算,无法满足时效性的要求
- Spark
- Spark 的实时性要比 MapReduce 好,并且解决了 MapReduce 无法高效做迭代计算的问题
② 流计算
- 针对问题:
- 流数据的实时计算
- 流数据需要实时处理,给出实时相应,否则分析结果就会失去商业价值
- 流计算的代表产品:
- S4、Storm、Flume、Streams、Puma、DStream、Super Mario、银河流数据处理平台等
- 流计算可以做秒级的针对实时运算的数据
③ 图计算
- 针对问题:
- 大规模图结构数据的处理
- 图计算可以高效处理图数据,如:
- 社交网络数据就是图结构数据
- 图计算的代表产品:
- Google Pregel、GraphX、Giraph、PowerGraph、Hama、GoldenOrb等
④ 查询分析计算
- 针对问题:
- 大规模数据的存储管理和查询分析
- 交互式的查询计算
- 查询分析计算的代表产品:
-Google Dremel、Hive、Cassandra、Impala等
1.5 大数据与云计算、物联网的关系
00 云计算
-
什么是云计算?云计算就是解决两大核心问题:
分布式存储
和分布式处理
-
云计算的典型特征:
虚拟化
和多用户
-
云计算的概念:
云计算就是通过网络以服务的方式为用户提供非常廉价的IT资源
-
云计算的优势:
企业不需自建IT基础设施,可以租用云端资源
-
云计算的三种模式:
公有云
- 面向公众
私有云
- 面向企业内部
混合云
- 部分给自己,部分给外面
-
⭐三种云服务:
IaaS
—— 基础设施即服务- 将基础设施(计算资源和存储)作为服务出租
Paas
—— 平台即服务- 针对开发者,开发者开发产品时调用平台接口,将产品部署在平台上,就可以使用平台的云计算资源
SaaS
—— 软件即服务- 典型案例:云财务软件
- 不需要本地安装软件再使用,对方将整个软件以服务的形式卖给你,只要有网络,你就可以打开手机或电脑对软件进行操作
-
云计算关键技术:
虚拟化
、分布式存储
、分布式计算
、多租户
01 物联网
-
物联网概念:
- 物联网(IoT : The Internet of Things) 就是物物相连的互联网,是互联网的延伸
-
物联网层次架构
-
物联网的关键技术:
识别技术
和感知技术
-
⭐物联网、云计算与大数据三者紧密先关,相辅相成
- 物联网可以借助于大数据实现海量数据的存储和分析
- 物联网可以借助于大数据实现海量数据的存储和分析
1.6 小结
至此,我们简要了解了大数据的产生和发展、大数据的特性和影响、大数据的应用和关键技术以及云计算的相关概念。
√ 圈重点:
⭐ 大数据的4V特性
⭐ 大数据的影响(科学范式、思维)
⭐ 大数据计算模式(批处理计算、流计算、图计算、查询分析计算)
⭐ 三种云服务
⭐ 大数据、云计算与物联网之间的关系