做网站要不要花钱做店长,济南网站建设在哪里,企业内网网站,网易云邮箱阿帕奇跨域Apache Beam是一个开放源代码统一模型#xff0c;用于定义批处理和流数据并行处理管道。 使用一种开源的Beam SDK#xff0c;您可以构建一个定义管道的程序。 然后#xff0c;该管道由Beam支持的分布式处理后端之一执行#xff0c;这些后端包括Apache Apex … 阿帕奇跨域 Apache Beam是一个开放源代码统一模型用于定义批处理和流数据并行处理管道。 使用一种开源的Beam SDK您可以构建一个定义管道的程序。 然后该管道由Beam支持的分布式处理后端之一执行这些后端包括Apache Apex Apache Flink Apache Spark和Google Cloud Dataflow 。 Beam对于令人尴尬的并行数据处理任务特别有用在该任务中问题可以分解为许多较小的数据束可以独立和并行处理。 您还可以将Beam用于提取转换和加载ETL任务以及纯数据集成。 这些任务对于在不同的存储介质和数据源之间移动数据将数据转换为更理想的格式或将数据加载到新系统上非常有用。 Apache Beam管道运行器 Beam Pipeline Runners将您使用Beam程序定义的数据处理管道转换为与您选择的分布式处理后端兼容的API。 运行Beam程序时需要为要在其中执行管道的后端指定适当的运行器。 Beam当前支持与以下分布式处理后端一起使用的Runner Apache Apex Apache Flink Apache Gearpump正在孵化 Apache Spark Google Cloud Dataflow [1] https://beam.apache.org 翻译自: https://www.javacodegeeks.com/2018/02/apache-beam.html阿帕奇跨域