什么是MapReduce?有什么优点?

2020.06.10 -

   

MapReduce是用于大量数据处理的编程模型。我们可以使用各种编程语言(例如C ++,Ruby,Java,Python和其他语言)编写MapReduce程序。

与MapReduce程序并行,它们在使用多台群集计算机的大规模数据分析中非常有用。MapReduce的最大优点是数据处理易于在多个计算机节点上扩展。

数据的原始处理在MapReduce模型下称为映射器和约简器。有时将用于数据处理的应用程序分解为映射器和精简器并非易事。

该程序分为三个阶段:

  1. 地图阶段
  2. 随机播放阶段
  3. 减少阶段

MapReduce的优点:

在这里,我们了解了MapReduce编程框架的一些重要优势,

1.可扩展性

Hadoop作为高度可扩展的平台,很大程度上是因为它具有跨大型服务器存储和分发大型数据集的能力。这里使用的服务器非常便宜,可以并行运行。可以通过添加更多服务器来提高系统的处理能力。传统的关系数据库管理系统或RDBMS无法扩展以处理庞大的数据集。

2.灵活性

Hadoop MapReduce编程模型为各种业务组织提供了灵活性,以处理结构或非结构化数据,这些业务组织可以利用数据并可以处理不同类型的数据。因此,他们可以从那些对业务组织进行分析有意义和有用的数据中产生业务价值。

不管数据源是社交媒体,点击流,电子邮件还是其他数据源,Hadoop都支持多种用于数据处理的语言。除此之外,Hadoop MapReduce编程还允许许多应用程序,例如市场分析,推荐系统,数据仓库和欺诈检测。

3.安全性和认证

如果任何外部人员都可以访问组织的所有数据,并且可以操纵多个PB的数据,则可能会对业务组织的业务交易造成很大的损害。MapReduce编程模型通过与hdfs和HBase一起使用来解决此风险,该模型具有很高的安全性,仅允许批准的用户对系统中存储的数据进行操作。

4.高性价比的解决方案

对于需要存储数据的业务模型来说,这样的系统具有很高的可伸缩性,并且是一种非常经济高效的解决方案,该数据正与当前的需求呈指数增长。对于旧的传统关系数据库管理系统,就可伸缩性而言,处理数据并不像使用Hadoop系统那样容易。

在这种情况下,企业被迫缩减数据规模,并基于假设,即某些数据可能对组织有价值并因此删除原始数据,进一步实施分类。在这里,采用MapReduce编程的Hadoop横向扩展体系结构可助您一臂之力。

5.快

Hadoop分布式文件系统HDFS是Hadoop中使用的一项关键功能,该功能基本上是在实现映射系统以在集群中定位数据。

MapReduce编程是用于数据处理的工具,它也位于同一服务器中,可以更快地处理数据。Hadoop MapReduce可在较短的时间内处理大量非结构化或半结构化数据。

6.一个简单的编程模型

MapReduce编程基于非常简单的编程模型,该模型基本上允许程序员开发MapReduce程序,该程序可以更轻松,更高效地处理更多任务。MapReduce编程模型是使用Java语言编写的,非常流行并且很容易学习。人们很容易学习满足他们业务需求的Java编程和设计数据处理模型。

7.并行处理

编程模型以允许并行执行独立任务的方式划分任务。因此,这种并行处理使进程更容易执行每个任务,从而有助于在更少的时间内运行程序。

8.可用性和弹性

Hadoop MapReduce编程模型通过将数据发送到单个节点并将相同的数据集转发到网络中的其他节点来处理数据。

结果,在特定节点发生故障的情况下,相同的数据副本在其他节点上仍然可用,可以在需要确保数据可用性时随时使用。
这样,Hadoop是容错的。这是Hadoop MapReduce中提供的独特功能,它能够快速识别故障并为自动恢复解决方案应用快速修复。

全球有许多使用map-reduce的公司,例如facebook,yahoo等。

与传统的RDBMS系统相比,Map reduce在处理大数据方面具有强大的功能。许多组织已经意识到其潜力,并正在转向这项新技术。显然,map-reduce在大数据处理平台上还有很长的路要走。

本站文章禁止转载,违者必究
阅 234
0

MapReduce是用于大量数据处理的编程模型。我们可以使用各种编程语言(例如C ++,Ruby,Java,P […]

湘公网安备 43011102001693号

    湘ICP备19003021号-1