十张图带你入门Map/Reduce - C/C++ - 清泛网 - 专注C/C++及内核技术

还在苦苦敲代码开发APP？你out啦！ 试试积木搭建APP吧~

十张图带你入门Map/Reduce

来源： 2017-05-05 09:16:25 人气：我有话说( 0 人参与)

博主Aurelien，从13岁开始编程。曾在荷兰、比利时、法国、硅谷等多个国家从事网站开发，现效力于Terracotta公司。本篇文章来自Aurelien博客，用一个很简单的用例为初学者介绍了Map Reduce的使用方法；希望为广大初学者带来帮助。

你可能已经知道：Map/Reduce是一种模式，非常适合令人烦恼的并行算法。但是什么是令人烦恼的并行算法？答案：这个算法非常适合被多重并行的执行。那么什么样的模式才会非常适合并行算法？答案：任何作用在数据上的算法都会被隔离。

如果你编写的程序经常会在同一个时刻执行多重事件，并且它们需要访问一些公用数据；那么将会出现冲突，你必须着手处理当一个事件修改某个数据时，而另一个事件正在读取这段数据。这就是并发操作。如果你事件作用的数据段没有被其它事件操作，那么做的将是并行操作。显而易见：你可以使用扩展来解决并发性问题。

举个例子：如果你有一张记录了城市的表格，而每个城市都有两个属性 —— 所属州和城市年度平均温度。比如：San Francisco：{CA，58}。现在你想计算每年的平均温度 —— BY STATE。因为可以通过state对city进行分组查询，然后计算一个州的平均温度而不涉及到其他的州 —— 这里就将会出现高度并行算法问题。

如果你想逐步做这件事，你将从一个空的平均温度表开始。然后迭代访问表中的城市，查询每个城市中的state属性，接着做出相关的年度平均温度修改。

接下来看第一幅图：

这是一张印度地图。有许多州：MP、CG、OR等等。同样有数个城市，每一个城市都有{State，City average temperture}作为值。

这里我们将做每个周的平均温度。我们将通过state来分组查询城市的平均温度，然后计算出每个组的平均值。

当然我们并不是很在意每个城市的名称，所以将抛弃它只保留州名和城市温度。

既然已经获得了我们想要的数据，那么可以通过state进行重分组。我们将得到一张关于所有州内所有平均温度的表。

这里我们得到了非常好的数据模型用于逻辑计算，而仅需要做的就是计算每个州的平均温度。

当然，这并不困难。

我们有一些数据。做一点点的重分组，然后做计算。当然所有的这些都可以并行的执行（每个state一个并行任务）。

下面我们使用Map/Reduce重做这个问题！

Map/Reduce有3个步骤：Map/Shuffle/Reduce

Shuffle部分由Hadoop自行完成，这里只需要关注Map和Reduce的实现部分。

在Map部分你需要输入<Key，Value>数据。

在这里Key就是城市的名称，而Value是属性集：所属州以及城市均温。

同样通过state将temperature重分组、排除下城市名称，那么在state变为Key时temperature将成为Value。

现在Shuffle的任务是实现Map的完成。它将会通过Key进行分组，然后你就会获得一个List<Value>。

这也将作为Reduce任务的输入数据 —— 从Shuffle任务中获得的Key、List<Value>。

Reduce任务还是数据逻辑的完成者，在这里当然就是计算州的年平均温度。

我们也将获得如下的最终结果

这样就完成了Map/Reduce对数据进行重塑：

Mapper<K1，V1> ==》 <K2，V2>

Reducer<K2，List<V2> >==》<K3，V3>

简单的Map/Reduce入门希望能帮助弄清Map/Reduce任务的实现过程，下面附带用例代码：用例代码部分（Java）

原文链接：Confused About Map/Reduce?（编译/仲浩王旭东/审校）

上一篇：计算统计特征（正态分布）函数及实例
下一篇：解决：error C3861: “CreateDirectory”: 找不到标识符

本文源自互联网，采用知识共享署名-非商业性使用 4.0 国际许可协议进行许可，
版权归原作者，如有问题请联系service@tsingfun.com （编辑：admin）

分享到：

相关热点

本月排行

1C/C++ 如何向上取整？ 160次浏览
2hidden symbol ... is referenced by DSO 剖析 100次浏览
3Linux C++ 单元测试与gcov代... 53次浏览
4【解决】double free or corruption (!prev) 46次浏览
5CMFCTabCtrl的使用、颜色样式调整 41次浏览
6解决：Run-Time Check Failur... 35次浏览
7CFileDialog用法及参数解释 30次浏览
8error C2220: 警告被视为错误... 27次浏览
9与复制构造函数相关的错误.例如... 27次浏览
10C++使用OLE/COM高速读写EXCEL的源码 26次浏览

评论排行

1C++ 读写xml方法整理（持续更新）3次评论
2Reference to ' ' is ambiguous：符号定义重复2次评论
3全民OS2次评论
4__attribute__2次评论
5海量数据相似度计算之simhash和海...2次评论
6C++使用OLE/COM高速读写EXCEL的源码2次评论
7AfxIsValidAddress 测试内存地址2次评论
8C++入门进阶最佳实战2次评论
9phpcms附件上传 Flash换成H52次评论
10解决xrdp登陆不上的问题：xrdp s...2次评论

© 2024 tsingfun.com, Inc. 沪ICP备2020034476号-1