网站后台登陆密码,怎么样给网站的服务器续费,oa办公系统官网页版,沧州网站开发一、Spark核心
1、RDD
1#xff09;、概念#xff1a;
RDD#xff08;Resilient Distributed Datest#xff09;#xff0c;弹性分布式数据集。
2#xff09;、RDD的五大特性#xff1a;
1、RDD是由一系列的partition组成的
2、函数是作用在每一个partition(split…一、Spark核心
1、RDD
1、概念
RDDResilient Distributed Datest弹性分布式数据集。
2、RDD的五大特性
1、RDD是由一系列的partition组成的
2、函数是作用在每一个partition(split)上的
3、RDD之间有一系列的依赖关系
4、分区器是作用在K、V格式的RDD上
5、RDD提供一系列最佳的计算位置
3、RDD理解图 4、注意
textFile方法底层封装的是读取MR读取文件的方式读取文件之前先split默认split大小是一个block大小。
RDD实际上不存储数据为了方便理解暂时理解为存储数据
什么是KV格式的RDD
如果RDD里面存储的数据都是二元组对象那么这个RDD我们就叫做K,V格式的RDD
哪里体现RDD的弹性容错
partition数量大小没有限制体现了RDD的弹性。
RDD之间依赖关系可以基于上一个RDD重新计算出RDD。
哪里体现RDD的分布式
RDD是由Partition组成partition是分布在不同节点上的。
RDD提供计算最佳位置体现了数据本地化。体现了大数据中”计算移动数据不移动“的概念。 2、Java和Scala中创建RDD的方式
java:sc.textFile(xx,minnumpartitions)
sc.parallelize(集合,num)
sc.parallelizePairs(Tuple2xx,xx集合,num)Scala:sc.textFile(xx,minnumpartitions)
sc.parallelize(集合,num)
sc.makeRDD(集合,num) 3、Spark任务执行原理 以上图中有四个机器节点Driver和Worker是启动在节点上的进程运行在JVM中的进程。
Driver与集群节点之间有频繁的通信。
Driver负责任务(tasks)的分发和结果的回收。任务的调度。如果task的计算结果非常大就不要回收了。会造成oom。Worker是Standalone资源调度框架里面资源管理的从节点。也是JVM进程。Master是Standalone资源调度框架里面资源管理的主节点。也是JVM进程。