大数据到底是什么意思?事实上,它是一种精神!

2020.11.14 -

   

人们每天上传至云端的档案数量,多达一亿张相片、十亿份文件… 更别提数位影音、交易、生物医疗… 每天全球所创造的资料量高达2.5 艾位元组(exabyes,即1000, 000,000,000,000,000,百万兆)。

但资料量大就是大数据吗?究竟什么是大数据?又为何大数据会在近几年突然兴盛起来?时常耳闻的Hadoop、MapReduce、Spark 等技术又是什么呢?

今天,就让我们来聊聊什么是「大数据」(Big Data)。

大数据的源起

「储存成本」与「资料取得成本」因科技进步而大幅下降,造就了这个年代大数据的兴起。30 年前,1 TB 档案存储的成本为16 亿美金,如今一个1 TB 的硬碟不到100 美金。

同时间,全球各行业的资料量成长更是急速攀升;根据预估,从2013 年至2020 年间将成长10 倍的资料量,资料总量将从4.4 ZB 增加至44 ZB 。

以天文学为例, 2000 年美国太空总署在新墨西哥州发起的史隆数位化巡天(Sloan Digital Sky Survey)专案启动时,望远镜在短短几周内收集到的资料,已经比天文学历史上总共收集的资料还要多。

在生物医学领域,新型的基因仪三天内即可测序1.8 TB 的量,使的以往传统定序方法需花10 年的工作,现在1 天即可完成。在金融领域,以银行卡、股票、外汇等金融业务为例,该类业务的交易峰值每秒可达万笔之上。

Google 每天要处理超过24 千兆位元组的资料,这意味着其每天的资料处理量是美国国家图书馆所有纸质出版物所含资料量的上千倍。

Facebook 每天处理500 亿张的上传相片,每天人们在网站上点击”赞”(Like)按钮、或留言次数大约有数十亿次。

YouTube 的使用者人数已突破十亿人,几乎是全体网际网路使用者人数的三分之一,而全球的使用者每天在YouTube 上观看影片的总时数达上亿小时。

在Twitter 上,每秒钟平均有6000 多条推文发布,每天平均约五亿条推文。

千禧年开始,天文学、海洋学、生物工程、电脑科学,到智慧型手机的流行,科学家发现:仰赖于科技的进步(感测器、智慧型手机),资料的取得成本相比过去开始大幅地下降──过去十多年搜集的资料,今朝一夕之间即能达成。

也因为取得数据不再是科学研究最大的困难,如何「储存」、「挖掘」海量数据,并成功地「沟通」分析结果,成为新的瓶颈与研究重点。

接下来,我们将进一步介绍大数据的定义、特性,与发展重点。

什么是大数据?

大数据意指资料的规模巨大,以致无法透过传统的方式在一定时间内进行储存、运算与分析。

至于「大」是多大,则各家定义不一,有兆位元组(TB)、千兆位元组(PB)、百万兆位元组(EB)、甚至更大的规模单位;然而若真要找到符合这么大规模数据量的企业倒也是不容易。

事实上,根据451 Research 的资料科学家Matt Aslett,他将大数据定义为「以前因为科技所限而忽略的资料」,讨论这些以前无法储存、分析的资料。

如本文第一段所言,由于在近年来储存成本降低与资料获取量变大,因而能观察到不曾注意过的商业趋势,让企业做出更全面的考量。

无论企业规模大小,我们应注重的不仅是数据量本身,而应将「大数据」作为在科学研究与商业方法的运营心态:

大数据需要全新的处理方式,以新型的储存运算方法分析数据、产出沟通图表,并将该分析结果视为一种战略资产。

Lynn 闲聊:

讲白点:「大数据,是一种精神。」

你要说它是一个Mindset、一个Fu、一个buzz word 的口号都可以。

如果你公司里的主管对于几MB 的资料称为大数据… 要说他错也很难,大数据本来就没什么定义。跟着我再念一遍:大数据,是一种精神。不讲潮一点就会跟不上时代。

大数据的特性?

目前大部份的机构将大数据的特性归类为「3V」,包括资料量(Volume)、资料类型(Variety)与资料传输速度(Velocity)。

  1. VOLUME – 资料量

无论是天文学、生物医疗、金融、联网物间连线、社群互动…每分每秒都正在生成庞大的数据量,如同上述所说的TB、PB、EB 规模单位。

  1. VARIETY – 资料多元性

举一个简单的例子:

│资料类型│ 0 │ 0 │ 1 │ 0 │ 0 │ 1 │ 0 │ 0 │ 1 │ 0 │ 0 │ 1 │…

就算上述资料量高达1 TB,采用传统统计方法仍能很容易地找到资料规律。

也因此,真正困难的问题在于分析多样化的资料──从文字、位置、语音、影像、图片、交易数据、类比讯号… 等结构化与非结构化包罗万象的资料,彼此间能进行交互分析、寻找数据间的关联性。

  1. VELOCITY – 资料即时性

大数据亦强调资料的时效性。随着使用者每秒都在产生大量的数据回馈,过去三五年的资料已毫无用处。

一旦资料串流到运算伺服器,企业便须立即进行分析、即时得到结果并立即做出反应修正,才能发挥资料的最大价值。

第4 V

到目前为止,大数据的3V 到底要多大或多即时,并没有明确的共识或定义。(请再跟着我念:大数据,是一种精神。)

近年来大数据的定义又从最早的3V 变成了4V ──第四个V 代表Veracity ,意指资料真实性。

Veracity 讨论的问题包括:资料收集的时候是不是有资料造假、即使是真实资料,是否能够准确的纪录、资料中有没有异常值、有异常值的话该怎么处理… 等等。

目前台湾真正能符合大数据「3V」定义的企业微乎其微,在数据分析上更是几乎不可能。

由于进行资料分析的工作时,通常是由资料科学团队向企业的IT 部门登入企业伺服器取得资料,除了台湾企业在资料储存上的量与多样性已难以达到,在「即时性」这一点上便不符合。

唯有企业内部自建即时的资料分析团队并随时产出分析反馈,方能称作大数据分析。

(老实说,台湾有多少企业有做到Facebook、Google 等大数据等级的服务?一堆中小型企业能定期更新资料库、还没格式出错,就已经很了不起了)

大数据的发展重点

我们在上述提到了如何用非传统的方法「储存」、「挖掘」与「沟通」资料以挖掘崭新商业机会,是当前的一大技术方向。

讲到大数据,我们便不能不提与之息息相关的软体技术──「Hadoop」。

Hadoop 由Java 语言撰写,是Apache 软体基金会发展的开源软体框架。不但免费、扩充性高、部属快速,同时还能自动分散系统负荷,在大数据实作技术上非常受欢迎。

Hadoop 的核心主要由两个部分所构成:

  • 资料储存:「Hadoop 分散式档案系统(Hadoop Distributed File System)」
  • 资料处理:「Hadoop MapReduce」。

– HADOOP 分散式档案系统(HADOOP DISTRIBUTED FILE SYSTEM, HDFS):

由多达数百万个丛集(Cluster)所组成,每个丛集有近数千台用来储存资料的伺服器,被称为「节点」(Node)。其中包括主伺服器(Master Node)与从伺服器(Slave Node)。

每一份大型档案储存进来时,都会被切割成一个个的资料块(Block),并同时将每个资料块复制成多份、放在从伺服器上保管。

HDFS 系统会在一开始时用多重复制与机海战术的方式备份档案。

当某台伺服器出问题时、导致资料块遗失或遭破坏时,主伺服器就会在其他从伺服器上寻找副本复制一个新的版本,维持每一个资料块都备有好几份的状态。

简单来说, Hadoop 预设的想法是所有的Node 都有机会坏掉,所以会用大量备份的方式预防资料发生问题。

另一方面,储存在该系统上的资料虽然相当庞大、又被分散到数个不同的伺服器,但透过特殊技术,当档案被读取时,看起来仍会是连续的资料,使用者不会察觉资料是零碎的被切割储存起来。

– HADOOP MAPREDUCE:

MapReduce 是一种计算模型,分为Map 和Reduce 两项功能。

  • 「Map」功能会先将大资料拆成小资料,并以Key-Value 格式备用。

比如有数千万份的资料传入,Map 会计算每个字出现的次数;比如computer 这个字出现了一次、便以(computer, 1)这样的(Key, Value) 格式表示。

  • 「Reduce」则是汇整,意即汇整所有相同的Key 并计算出现的总次数。

简单来说,Map 仅是在各节点上计算少量数据,而Reduce 则是统计各地数据、将结果送回主伺服器进行公布。

MapReduce 的好处在于无须将所有资料都搬回中央去运算,而能在各地先简单的处理完毕后、再回传数据,如此更有效率。

总而言之,Hadoop 分散式档案储存系统(HDFS)是一个超大型的储存空间,并透过Hadoop MapReduce 进行运算。

Hadoop 成功解决了档案存放、档案备份、资料处理等问题,因而应用广泛,成为大数据的主流技术。

Amazon、Facebook、IBM 和Yahoo 皆采取Hadoop 作为大数据的环境。

事实上近两三年来,Apache 软体基金会另一个新星「Spark」隐隐有取代Hadoop MapReduce 的态势。

在大规模资料的计算、分析上,排序作业的处理时间,一直是个重要的指标。相较于Hadoop MapReduce 在做运算时需要将中间产生的数据存在硬碟中,因此会有读写资料的延迟问题。

Spark 使用了记忆体内运算技术,能在资料尚未写入硬碟时即在记忆体内分析运算,速度比Hadoop MapReduce 可以快到100 倍。

Spark 官网上对于Hadoop MapReduce 和Spark 的比较。

许多人误以为Spark 将取代Hadoop。然而,Spark 没有分散式档案管理功能,因而必须依赖Hadoop 的HDFS 作为解决方案。

作为与Hadoop 相容而且执行速度更快的开源软体,来势汹汹的Spark 想取代的其实是Hadoop MapReduce。

另一方面,Spark 提供了丰富而且易用的API,更适合让开发者在实作机器学习演算法。

2015 年6 月,IBM 宣布加入Apache Spark 社群,以及多项与Spark 专案相关的计画,IBM 将此次的大动作宣称为:「可能是未来10 年最重要的开放源码新计画」,计画培育超过一百万名资料科学家。

IBM 官网

Lynn 闲聊:

不过也不是每家公司都有必要使用Hadoop MapReduce 这类的大规模分散式系统资料库…

最近英国Bradfield学院的教授Ozan Onay就发了篇文《You Are Not Google》,酸说现在太多中小型公司有跟风的毛病:认为现在Google、Amazon、Facebook等公司都在用大规模分散式系统储存系统…

所以自己用SQL 这样的传统关联式资料库实在太不潮了!立刻跟进才是要紧,也不管自己公司的资料量有没有那么多、有没有需要。

为什么要说大数据是一种精神?因为现在很多主管疯大数据,就一股脑要引入根本用不着的技术。(或连最基本的资料库都建的零零落落,却不肯先从这点做改进)

事实上更重要的是考量人家 Google 为什么要用这个方案?他们的问题是什么?我们有这样的问题吗?需要采用一样的解方吗?才能真正解决问题。

资料分析– 机器学习

介绍完了Hadoop 基础架构后,让我们来看看资料分析上的最热门技术──「机器学习」。

如何从大数据中挖掘资料规律,以改善科学或商业决策,以手动方式探索资料集的传统统计分析,已难以应付大数据的量与种类。唯有透过「机器学习」,以电脑演算法达成比以往更深入的分析。

机器学习发端于1980 年代,是人工智慧的一项分支。透过演算法模型建构,使电脑能从大量的历史数据中学习规律,从而能识别资料、或预测未来规律。

从Google 搜寻技术与广告,到医疗、金融、工业、零售、基础建设… 机器学习的应用涵盖各行各业,一夕之间即可能有着天翻地覆的革新。

后续的系列文章中,我们将带领读者进一步了解机器学习的发展潜能。

资料沟通– 资料视觉化

随着「数据导向决策」的时代来临,资料科学家在分析完数据后,如何成功地将分析结果传递出去、使企业接收到该资讯呢?

资料视觉化 (Data Visualization)的重要性与潜在的庞大商机因此愈发被凸显出来。

人类的大脑在阅读图像画面的速度远比文字更快。资讯视觉化的优势在于──以一目了然的方式呈现资料分析结果,比查阅试算数据或书面报告更有效率。

「Tableau 软体」和微软开发的「Power BI」产品皆主打在资料分析后,将自动产生简洁易懂的资讯图表,并随着新增的数据分析结果生成仪表板(Dashboard),供使用者查询动态报表、指标管理等服务。

Tableau 与微软Power BI 的资料视觉化服务。

结语:

我们在本篇文章中介绍了大数据的精神意义:

大数据无统一定义,代表着传统的储存、分析技术难以应付的高维度资料。实际上大数据的特性包括了3V:量(Volume)、多样性(Variety)与即时性(Velocity)。近年又多了一个V :真实性(Veracity)。

我们也介绍了大数据在「储存」、「挖掘」与「沟通」的重点发展方向,从Hadoop、机器学习与资料视觉化,大数据的相关技术日新月异。

虽然在本文内说道「大数据是一种精神」,然而这并不代表笔者认为资料分析不重要。问题在于,资料重要归重要,但该怎么配合公司的规模和营运需求,来使用处理资料,才是核心关键。

公司必须在多方考量与方案分析后,建立合适的资料库技术与资料科学分析团队、将资料视为企业的策略性资产,方能发掘无所不在的商业机会,在此波浪潮下创造竞争优势。

本站文章禁止转载,违者必究
阅 24
0

人们每天上传至云端的档案数量,多达一亿张相片、十亿份文件… 更别提数位影音、交易、生物医疗… 每天全球所创造的 […]

湘公网安备 43011102001693号

    湘ICP备19003021号-1