视频网站如何建设,东莞网站推广建设,看室内设计效果图网站,如何找做网站的客户文章目录 #xff08;95#xff09; Shuffle机制什么是shuffle#xff1f;Map阶段Reduce阶段 参考文献 #xff08;95#xff09; Shuffle机制
面试的重点
什么是shuffle#xff1f;
Map方法之后#xff0c;Reduce方法之前的这段数据处理过程#xff0c;就叫做shuff… 文章目录 95 Shuffle机制什么是shuffleMap阶段Reduce阶段 参考文献 95 Shuffle机制
面试的重点
什么是shuffle
Map方法之后Reduce方法之前的这段数据处理过程就叫做shuffle中文直译洗牌。
参考上一小节的MR工作流程整个shuffle的工作流程如下图可以理解成shuffle横跨map和reduce阶段 Map阶段
1 Map()处理之后的数据会被传输进环形缓冲区而在这个过程中数据会被打上一个分区之后会讲这个分区是怎么来的。打好分区后数据会被正式写入环形缓冲区。
2 环形缓冲区的机制在上一小节里有介绍看那个就行。需要注意它在溢写到磁盘之前需要对数据进行排序即针对KEY值的索引按照字典顺序进行快排。
每次溢写后会形成两个文件一个是保存索引用的spill.index一个是保存数据用的spill.out。这个过程中有一个可选环节即combiner即简单聚合如果开启这个环节的话会对本次溢写的文件做一些简单的预聚合如将a,1, a,1合并成a,2从而在一定程度上减轻reduce阶段的输入量。
3 溢写会进行很多轮即生成很多个.out文件。 当输入数据全部溢写完成后会以分区为单位对所有溢写结果做归并排序并最终整合成一个大文件。相当于是在该MapTask下最终只保留一个文件且这个文件内部是按照分区由低到高排列分区内部有序。
4 归并排序后仍然是一个可选的combiner环节对文件内数据做再次的预聚合。
5 combiner之后会对各分区的数据文件做压缩。从归并排序到压缩这部分工作都是在内存中完成的最后会将压缩后的数据写入磁盘。
为什么要进行压缩呢
这是一个优化的手段因为最终的输出是要传到Reduce里的待传输的文件越小输出的时间就越短相比就更加高效。这个后面具体会讲
6 最后会将压缩后的文件放进磁盘中等待Reduce来主动拉取。
Reduce阶段
在Reduce阶段
1 每个ReduceTask会主动拉取Map阶段的处理结果指定分区优先读取到内存因为内存里面直接处理会更快但是如果内存不够那就没办法了只能溢写到磁盘后续一点点处理了。
2 然后对从每个MapTask收上来的数据做归并排序。
3 归并排序完之后再根据相同的key进行分组分组之后的数据类似于如key, [v1, v2, v3,...]。
4 最终把分组后的数据送进Reduce()做相应的业务逻辑处理并输出。
以上流程就是一个完整的shuffle流程。
参考文献
【尚硅谷大数据Hadoop教程hadoop3.x搭建到集群调优百万播放】