网站建设中的问题,官方网站是 优帮云,贵阳手机网站开发,黄陂网站建设目录
数据处理的方式有哪些
单机数据处理
集群数据处理 分布式计算框架 MapReduce ApplicationMaster
Spark分布式计算类别
进程与线程的区别
进程是计算时分配资源的最小单位
线程是执行计算任务的最小任务
多进程的执行效率没有多线程的执行效率高
多任务
Spark和M…目录
数据处理的方式有哪些
单机数据处理
集群数据处理 分布式计算框架 MapReduce ApplicationMaster
Spark分布式计算类别
进程与线程的区别
进程是计算时分配资源的最小单位
线程是执行计算任务的最小任务
多进程的执行效率没有多线程的执行效率高
多任务
Spark和MapReduce的区别
处理速度
实现方式
容错机制
调度 数据处理的方式有哪些
单机数据处理
依赖单个计算机的资源,处理的数据量较少,当数据量过大时,无法执行
集群数据处理
采用分布式技术,借助分布式服务实现海量数据处理
分布式存储 HDFS : 主-NameNode 从-DataNode分布式资源调度 Yarn : 主-ResourceManager 从-NodeManager 分布式计算框架 MapReduce
需要开发人员编写计算代码MapReduce采用的是多任务方式进程进行分布式计算每个计算任务运行在不同的服务器上MapReduce包含Map和Reduce两个部分两个部分分别以进程的方式运行Map运行的数量由谁决定 默认情况下split切割的数据会给到Map而split默认切割一个块的的数据所以一个块对应一个mapReduce运行数量 默认情况下根据计算的数据量自动决定产生多少个reducehive在进行计算时可以通过set进行设置指定的reduce个数决定了分区数 分区数和reudce个数是一致的 ApplicationMaster
ApplicationMaster管理MapReduce的计算
Spark分布式计算类别
spark有很多部署方式,不同的部署方式决定spark计算时的资源调度方式
Local模式 使用单机资源使用master参数指定资源调度方式 默认 loca standalone 使用spark自带的资源调度 yarn 使用hadoop的资源调度 进程与线程的区别
进程是计算时分配资源的最小单位
如果要执行一个计算任务是按照进程分配资源运行时需要先创建进程一个进程就有一份资源
线程是执行计算任务的最小任务
线程依赖进程的资源没有进程就没有线程默认情况下一个进程中包含一个线程使用线程执行任务
多进程的执行效率没有多线程的执行效率高
创建进程资源需要花费时间spark的执行速度比Mapreduce的速度快
多任务
可以通过多任务实现多个计算机任务同时执行多任务可以通过进程实现多个任务,也可以多个线程实现
Spark和MapReduce的区别
处理速度
MapReduce只要是基于磁盘计算,将数据存储在HDFS上,并在计算工程中频繁读写磁盘.
Spark是支持内存计算,当内存够大,可以比MapReduce快100倍
实现方式
MapReduce采用的是多进程方式实现多任务计算提升计算效率 Spark采用的多线程方式实现多任务提升计算效率 容错机制
MapReduce 通过在HDFS上存储中间数据来实现容错
Spark通过RDD的血统机制来实现容错,如果某个节点失败,可以从血统信息重新计算丢失的数据.
调度
MapReduce使用Hadoop的YARN作为资源调度器
Spark有自己的调度器,可以更高效的管理资源和任务