电子商务网站名称和网址,wordpress 内容 管理员查看,移动外包公司要不要去,建设银行快审额度查询网站作者#xff1a;李钰 - 阿里云资深技术专家、EMR 负责人
EMR 2.0 平台
阿里云正式发布云原生开源大数据平台EMR 2.0已历经一年时间#xff0c;如今EMR 2.0全新平台在生产上已经全面落地#xff0c;资源占比超过60%。EMR 2.0平台之所以在生产上这么快落地#xff0c;源于其…作者李钰 - 阿里云资深技术专家、EMR 负责人
EMR 2.0 平台
阿里云正式发布云原生开源大数据平台EMR 2.0已历经一年时间如今EMR 2.0全新平台在生产上已经全面落地资源占比超过60%。EMR 2.0平台之所以在生产上这么快落地源于其体验全面提升更重要的一点是为客户实现了全面降本增效。
EMR 2.0 平台实现降本增效主要源于四个核心能力
极致弹性
EMR 2.0平台提供极致弹性的能力主要表现在两个方面。第一是支持抢占式实例客户可以指定使用抢占式实例的优先级单节点组最多选择10种不同规格成本优化策略支持自动选取低价实例规格出价当抢占式实例不足的时候会给客户补充按量付费的实例兼顾成本和业务效果。第二就是极速响应能力单节点组内和多节点组间均支持并行扩容支持缩容期间并行扩容支持突发业务变化并且在响应能力上也有大幅提升扩容速度不随着节点的增加而增加100 节点扩容时间小于2分钟 弹性指标检测周期低于30秒能够更好地响应负载变化而且单次扩容规模能够达到1000个节点。 智能诊断
EMR 2.0平台具备智能诊断能力通过EMR Doctor的集群日报和实时检测功能可以实现避免资源浪费、风险提前预警和实时分析建议的核心效果通过健康检查服务的集群日报功能查看集群是否存在资源浪费通过任务评分倒排 Top N找到资源浪费最多的作业进行优化通过持续优化最大化利用资源避免浪费。 新硬件支持
EMR 2.0平台全面支持倚天 ECS 实例相较X86实例成本降低20%以上。另外在软件层面、计算引擎层面针对ARM的指令集也做了一系列优化性能更高CPU 占用率更低在典型TPC-DS大数据 Benchmark 下能够进一步将性能提升1/4意味着使用EMR2.0新平台加上倚天实例构建大数据集群可以实现40%成本下降。 资源配比优化
EMR 2.0平台提供资源配比优化能力。虽然大数据负载具备动态性但是在一定时间内也具备一定的周期性。EMR 2.0平台提供HBO能力基于历史用量分析用量高峰低谷推荐更低成本的预付费包年包月固定资源和后付费按量弹性资源配比。固定和弹性资源用量和账单可视化历史用量曲线跟踪更直观地度量资源配比调整前后成本绩效。 基于以上四个方面的优化使用EMR 2.0平台的客户在生产上确确实实地实现了降本增效。EMR 团队也开始进一步思考以ECS集群方式构建大数据的解决方案是否存在难以解决的问题。
EMR 集群形态难以解决的问题
有物理机运维经验的同学应该知道当CPU和内存的使用率都超过70%时整个集群的负载水位就很高了。所以在生产当中如果资源的综合使用率能够达到70%就可以认为整个集群的资源使用率是比较高的。如果以70%的资源使用率为标准评判集群的资源是否利用得比较充分则会观察到一个现象。10%的线上集群资源使用较为充分有90%的集群资源利用率不到70%。另外观察到超过 3 成集群资源综合使用率不足 50%而且没有明显的资源峰谷只是日常综合的使用率。另外考虑到业务负载动态变化以及集群形态对资源规划者能力要求极高如果想在资源利用率上更进一步全面 Serverless 化势在必行。基于以上背景近一年阿里云EMR团队在Serverless化产品上取得了较大进展。 EMR Serverless 化产品 阿里云EMR数据湖仓架构
EMR Serverless Notebook
上图是阿里云EMR数据湖仓架构。首先看一下数据开发层数据开发层分为开发和调度两方面。在数据开发方面EMR推出了Serverless Notebook是一款即开即用免运维的产品提供完善的用户权限和企业级的安全能力。用户可以开发SQL、Python等非常通用的Notebook作业。另外EMR Serverless Notebook 几乎全面兼容了HUE的能力历史存量业务可以无缝迁移还支持无缝对接各种形态的EMR集群。目前还在测试中感兴趣的用户可以到EMR官网申请试用。 EMR Serverless Workflow
在数据工作流调度方面EMR推出了Serverless Workflow。这款产品也是即开即用免运维的全托管产品完全兼容Apache DolphinScheduler也提供用户权限和企业级的安全能力。另外还可以随着调度负载的增加和减少提供弹性伸缩的能力可以无缝对接各种形态的EMR集群支持包括Spark、Flink在内的各种大数据作业开发感兴趣的用户可以在EMR工作台直接开通测试。 接下来看一下计算层我们通常将大数据的计算分为三类批处理、流处理和Olap交互式分析。流处理主流产品是Flink阿里云对应推出了实时计算Flink版产品。EMR则在批处理和Olap两个方向分别推出了对应的产品。
EMR Serverless Spark
一站式数据开发平台
EMR Serverless Spark 提供了一站式数据开发平台在这个一站式数据开发平台上面用户可以便捷地开发SQL作业也可以很方便地进行试运行和调试调试完成后支持一键上线及发布同时还提供内置工作流编排能力用户可以基于已经开发好的SQL作业来编排工作流并且在工作流上做定时调度当工作流编排调度好了之后还提供工作流和任务两个维度且比较完善的监控和运维能力。用户可以在工作流维度上看到工作流每次运行的状态例如运行到哪个节点失败点击失败的节点可以看到失败的原因。此外还支持智能诊断比如Spark作业有数据倾斜或者某个并发数据GC的问题智能诊断能力可以帮助用户更快地解决问题。 企业级 Native 引擎
除了一站式数据开发平台EMR Serverless Spark 在内核上也做了优化。首先是企业级Native引擎优化基于Native算子及SIMDJson优化的向量化执行引擎支持高性能列式的Shuffle可以将Shuffle的数据量最多减少40%面向不同指令集做的指令集粒度优化包括zstd等比较先进的压缩、解压缩算法的优化最后还提供原生的C接口来对接湖格式、OSS—HDFS存储从而提供端到端完整的高性能。下图左侧是EMR Native Engine 和 Apache Spark3.3在TPC-DS 10TB这个benchmark上的对比可以看到企业级Native引擎可以达到开源引擎3倍以上的性能。 企业级 RSS 支持
EMR Serverless Spark 提供企业级 RSS 支持。众所周知批处理云原生和Serverless化需要将本地的状态和存储依赖去掉就要把ESS转换成使用Remote shuffle service。EMR Serverless Spark 提供的企业级 RSS 支持是基于Apache Celeborn 的也是阿里云EMR团队捐赠给 Apache 孵化器的一款 RSS 软件目前在整个生态上面有非常多国内外公司在使用包括国外的 Linkedin、Shopee国内的网易、哔哩哔哩。EMR Serverless Spark 在完全兼容Celeborn的基础上还提供了企业级多租户能力支持企业级的安全隔离。另外依托于阿里内部的生产实践在大规模、高性能和全面功能性上都做了完整的提升。下图左侧就是Remote Shulffe Service相比于ESS的性能对比情况可以看到有非常明显的提升。 按量付费极致弹性
此外EMR Serverless Spark 支持按量付费和极致弹性。全新的按量计费方式打破了传统的按规格计费方式根据计算资源和存储空间的实际使用量计费计算资源以CU为单位1个CU性能等于 1 Core CPU 4 GB Mem。在同样规则的情况下Serverless 可以更好地响应负载变化成本节省高达50% EMR Serverlesss StarRocks
EMR Serverlesss StarRocks 已经正式商业化除了有一站式应用的开发平台之外还能够全面覆盖数据湖分析的各种场景另外还具备企业级内核能力和云原生能力。 企业级 StarRoks Manager 管控
EMR Serverless StarRocks 提供企业级 StarRocks manager 管控不仅支持实例级别管理和监控还可以做一站式SQL开发查询支持慢 SQL Profile 查询分析另外还提供智能诊断分析能力帮助用户更方便地使用 StarRocks。
企业级数据湖分析场景支持
EMR Serverless StarRocks 在数据湖分析场景的支持也非常完善。一方面支持数据湖查询加速另一方面在传统数仓分层ETL的场景下作为ADS层的Olap引擎同时也支持DWD和DWS层的查询加速。EMR Serverless StarRocks 在企业级数据湖分析场景做到按需秒级弹性0负载0成本提供全面的负载分析和诊断分析通过内核优化实现了相比于开源Trino3—5倍的提升支持 Trino 兼容以及一键迁移另外在 Benchmark测试下性能显著优于开源的ClickHouse和Apache Doris另外在查询加速方面针对缓存管理也做了增强企业级外表物化视图可有效实现湖仓分层企业级缓存管理模块支持配置热表热分区等淘汰策略可根据业务场景平衡性能与成本。 企业级物化视图ELT场景支持
EMR Serverless StarRocks 提供企业级物化视图ELT场景支持。当数据量没有那么大的时候可以用 StarRocks 处理所有 Pipeline极大地加速整个业务流程。EMR Serverless StarRocks 通过大量算子 Spill 特性优化提供企业级 MPP ETL 模式确保了高稳定性同时利用 VVP CTAS / CDAS 能力打造了全链路实时数仓完善的 Data Sink Connector支持多种湖格式基于 DataLake 的 ELT 全链路一站式读写和加工湖数据此外后续还会推出视图血缘功能提供企业级物化视图血缘关系可以更方便地构建实时数仓还可以基于历史信息优化推荐更完善、性能更好、更稳定的物化视图帮助用户在ELT场景下更好地支撑业务。 存算分离极致弹性
除了能够全面地支撑数据湖分析场景之外EMR Serverless StarRocks 还支持企业级的存算分离和极致弹性能力。在存算分离架构下基于底层的OSS数据湖存储在极大地降低存储成本的同时还能够保证很高的数据可靠性另外多 Data WareHouse 场景可以基于同一份物理数据创建两个 Virtual Data Warehouse一个用于扫表一个用于高维查询两个Warehouse 有各自的缓存策略对于业务隔离和SLA保障有非常好的提升另外在性能上依托于EMR Serverless StarRocks 企业级缓存能力在缓存打开的时候性能和存算一体基本持平当缓存不命中的情况下查询性能也较为可控。 数据湖管理 DLF 重磅升级
统一元数据管理
首先在元数据管理方面DLF 有2.5倍性能提升单表支持500万分区推出了全面兼容HMS功能也就是Hive MetaStore的能力。
统一权限管理
中心化权限管理方面全面兼容 Ranger 鉴权全面支持访问审计还支持对接 LDAP全场景权限检查方面支持 Hive/Spark 表鉴权 支持文件目录鉴权另外还可以对接 EMR 全系列产品组件。
统一数据治理
在数据治理方面也做了很多工作。在生命周期管理方面支持全面分析访问日志、访问时间智能识别数据冷热允许指定规则智能执行冷热分层和归档较好地节约成本湖表格式加速方面也全面支持湖表格式加速全面覆盖 Paimon、Delta、Hudi、 Iceberg 等常用湖格式。
在线平滑迁移
DLF 支持HMS 迁移、支持 HDFS、S3 迁移 、支持双跑校验比对支持 HDFS 透明协议代理。实现在线平滑迁移不影响在线应用无需修改业务在数据迁移过程中和迁移之后可以做双跑数据对比校验没有数据损害。 数据湖存储 OSS-HDFS 全面升级
数据湖存储 OSS-HDFS 也做了全面升级目前在线上已经有超过1000个客户服务存储量超过100PB。
大幅提升性能
元数据访问性能提升了2倍以上对于某些特定的操作性能提升能够达到10倍。IO 访问支持智能预读请求数减少 20%支持高效并发CPU 使用降低 30%。
多举措降低成本
全面支持 OSS 归档能力新增支持冷归档和深冷归档支持归档直读无须回转对于分层存储和归档数据也有完善管理支持无限制目录级/分区级归档支持目录 Access Time高效识别数据冷热。
全方位数据保护
对 Kerberos 认证、Ranger鉴权、审计日志、数据清单功能进行全面安全支持另外还提供目录保护的能力支持指定目录保护避免误删对于回收站的清理策略也支持更细粒度的管理。
全面开源生态兼容
全面兼容HDFS兼容 HDFS 接口、支持 HDFS 二进制协议兼容、支持 HDFS 命令另外还支持 fsimage 导出 。 最后阿里云 EMR 团队也在规划全托管数据湖缓存加速预计明年4月份会和大家见面欢迎关注。