当前位置: 首页 > news >正文

中南大学双一流建设网站美好乡村建设网站

中南大学双一流建设网站,美好乡村建设网站,南宁市住房和城乡建设局网站,电子商务以后可以做什么工作文章目录 小文件归档 HAR小文件优化 Uber 模式 小文件归档 HAR 小文件归档是指将大量小文件合并成较大的文件#xff0c;从而减少存储开销、元数据管理的开销以及处理时的任务调度开销。 这里我们通过 Hadoop Archive (HAR) 来进行实现#xff0c;它是一种归档格式#xf… 文章目录 小文件归档 HAR小文件优化 Uber 模式 小文件归档 HAR 小文件归档是指将大量小文件合并成较大的文件从而减少存储开销、元数据管理的开销以及处理时的任务调度开销。 这里我们通过 Hadoop Archive (HAR) 来进行实现它是一种归档格式可以将多个小文件和目录归档成单个 HAR 文件。 在进行下面的操作前请先启动集群。 对小文件进行归档 当前在 /input 目录下存储了 3 个小文件如下所示 现在我们对这三个文件进行归档命令如下 hadoop archive -archiveName input.har -p /input /result这里将目录 /input 下的所有文件都进行归档并保存在 /result 目录下取名为 input.har。 进入归档结果目录中可以发现归档文件的目录结构其中 part-0 中存储的就是真正的文件内容它包含了三个文件的所有内容其余的文件都是归档相关的文件记录信息。 查看已经归档的文件 hadoop fs -ls har:///result/input.har解档文件 hadoop fs -cp har:///result/input.har/* /注意解档指定的目录必须提前创建。 小文件优化 Uber 模式 什么是 Uber 模式 “Uber 模式” 是指在 Hadoop 中运行 MapReduce 任务时将所有的任务Mapper 和 Reducer都运行在一个单独的 JVM 进程中而不是在集群的不同节点上分别启动多个 JVM 进程来运行任务。 这个模式的名称来自于 Uber 公司他们在其 Hadoop 集群上采用了这种方式来运行任务。 优点 减少资源开销 Uber 模式可以减少任务启动的开销因为不需要为每个任务都启动一个单独的 JVM 进程这样可以节省内存和CPU资源。 提高局部性 由于所有任务在同一个 JVM 中运行数据的局部性更高因为不需要在不同节点之间传输数据。 避免任务调度开销 在分布式环境中任务的调度也会带来一定的开销Uber 模式可以避免这些开销从而提高任务的执行效率。 缺点 单点故障 如果运行任务的 JVM 发生故障所有的任务都会受到影响而不是像分布式模式下那样只影响一个节点上的任务。 资源限制 由于所有任务共享一个 JVM可能会受到 JVM 内存限制的影响特别是对于需要大量内存的任务。 性能不适用于所有场景 Uber 模式在某些情况下可能会导致性能下降特别是当任务需要大量的并行计算时由于共享一个 JVM可能无法充分利用多核处理器。 当开启 Uber 模式后Hadoop 会根据一定的规则和条件来自动判断是否使用 Uber 模式运行任务还是使用分布式模式。 Uber 模式的配置 编辑 Hadoop 中的 mapred-site.xml 配置文件添加下列内容 !--开启uber模式默认关闭 --propertynamemapreduce.job.ubertask.enable/namevaluetrue/value/property!-- 限制单个 JVM 中运行的 Map 任务数量防止资源过度占用最大 9 -- propertynamemapreduce.job.ubertask.maxmaps/namevalue9/value/property!-- 限制单个 JVM 中运行的 Reduce 任务数量最大 1 --propertynamemapreduce.job.ubertask.maxreduces/namevalue1/value/property!-- 设置在 Uber 模式下最大的输入数据量默认值为 dfs.blocksize 的值128MB --propertynamemapreduce.job.ubertask.maxbytes/namevalue/value/property分发文件同步配置到其它机器无需重启集群。 测试 当前在 /input 目录下存储了 3 个小文件如下所示 我们来运行 Hadoop 官方案例 wordcount 来测试 Uber 模式是否设置成功。 hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar wordcount /input /output如果配置成功在案例执行过程中会打印提示正在使用 Uber 模式运行 我们进入 Yarn 中查看案例运行记录 可以看到只启动了 1 个容器进行处理并且只花费了 8 秒读者可以关闭 Uber 模式来对比前后的速度差别。 未开启 Uber 模式执行效率 启动了 5 个容器进行处理花费了 15 秒。
http://www.zqtcl.cn/news/130572/

相关文章:

  • 建设公司网站需要什么群辉nas怎么做网站
  • 广西自治区集约化网站建设要求坂田网站的建设
  • 网站后台不能编辑企业如何申请网站
  • 网站建设网站设计多少钱网站系统开发方式
  • 站长收录wordpress配置好后别人无法访问
  • 我国档案网站建设吉林网站建设制作
  • 手机网站底部导航网站视频链接怎么做
  • 企业门户网站属于什么层seo关键词排行优化教程
  • wordpress 演示站广东省南粤交通投资建设有限公司网站
  • 典型的企业网站张家港保税区建设规划局网站
  • 网站设计公司那个好网页设计登录界面模板
  • 做网站的厂家聚美优品网站设计
  • 哈尔滨网站建设效果好网站改版 影响google 404跳首页
  • 廊坊网站推广的公司如何做1个手机网站
  • 网站index.php被修改南京cms建站系统
  • 淘宝网站模板是什么做的北海建设厅网站
  • 我想建个网站想做电商应该怎么入门
  • 广州番禺网站制作推广网站建设徐州百度网络网站
  • 有没有个人做网站的新网站做seo 的效果
  • 做网站和app哪个简单旅游资讯网站建设方案
  • 网站建设考级百度怎样可以搜到自己的网站
  • 自助建站免费自助建站网站广州企业网站
  • 常德论坛尚一网唐山seo网络推广
  • 网站建设预付流程网站设计风格的关键词
  • 常德网站制作怎么做自己的网页
  • 做的网站为什么图片看不了wordpress循环该分类子分类
  • 源码出售网站怎么做一个产品的网络营销方案
  • 安丘营销型网站建设国外教育网站模板
  • 做网站案例百度小说排行榜前十
  • 东昌网站建设公司上传到网站去的文档乱码