当前位置: 首页 > news >正文

网站建设佰金手指科杰十八最近新闻热点

网站建设佰金手指科杰十八,最近新闻热点,内网网站建设,做视频网站审核编辑有假么“ Lambda体系结构是一种数据处理体系结构#xff0c;旨在通过利用批处理和流处理方法来处理大量数据。 这种体系结构方法试图通过使用批处理提供批处理数据的全面而准确的视图#xff0c;同时使用实时流处理提供在线数据的视图来平衡延迟 #xff0c; 吞吐量和容错能力 。 … “ Lambda体系结构是一种数据处理体系结构旨在通过利用批处理和流处理方法来处理大量数据。 这种体系结构方法试图通过使用批处理提供批处理数据的全面而准确的视图同时使用实时流处理提供在线数据的视图来平衡延迟 吞吐量和容错能力 。 在演示之前可以将两个视图输出合并。 lambda体系结构的兴起与大数据的增长实时分析以及减轻地图缩减延迟的驱动力有关。” –维基百科 以前我已经写了一些博客涉及许多用例这些用例是使用Oracle Data IntegratorODI在MapR分发之上进行批处理以及使用Oracle GoldenGateOGG将事务数据流式传输到MapR Streams和其他Hadoop组件中。 最新的ODI12.2.1.2.6结合了这两种产品以完全适合lambda架构同时具有许多新的强大功能包括能够将Kafka流作为ODI本身的源和目标进行处理。 通过简化我们在一种产品下以相同逻辑设计处理和处理批处理和快速数据的方式此功能对已经拥有或计划拥有lambda架构的任何人都具有巨大的优势。 现在如果我们将OGG流传输功能和ODI批处理/流传输功能结合在一起则可能性是无限的。 在本博客中我将向您展示如何使用Spark Streaming在Oracle Data Integrator上配置MapR流aka Kafka以创建真正的lambda体系结构补充批处理和服务层的快速层。 在本文中我将跳过ODI的“赞扬和称赞”部分但我只想强调一点自从ODI首次发布以来为该博客设计的映射就像您将设计的所有其他映射一样都是您可以直接在Hadoop / Spark集群上以100的本机代码运行而无需编写零行代码也不必担心如何以及在何处编码。 我已经在MapR上完成了此操作因此我可以制作“两只鸟一块石头”。 向您展示MapR Streams步骤和Kafka。 由于两者在概念或API实现上并没有太大差异因此如果您使用的是Kafka则可以轻松地应用相同的步骤。 如果您不熟悉MapR Streams和/或Kafka概念建议您花一些时间来阅读它们。 以下内容假定您知道什么是MapR Streams和Kafka当然还有ODI。 否则您仍然会对可能的功能有个好主意。 准备工作 MapR Streamsaka Kafka相关的准备工作 显然我们需要创建MapR Streams路径和主题。 与Kafka不同MapR通过“ maprcli”命令行实用程序使用其自己的API来创建和定义主题。 因此如果您使用商品Kafka则此步骤将略有不同。 Web上有很多有关如何创建和配置Kafka主题和服务器的示例因此您并不孤单。 为了进行此演示我创建了一个路径和该路径下的两个主题。 我们将让ODI从其中一个主题注册进行消费并生成另一个主题registrations2。 这样您将看到它如何通过ODI起作用。 创建一个名为“ users-stream”的MapR Streams路径和一个名为“ registrations”的主题 在我之前定义的相同路径上创建第二个主题“ registrations2” Hadoop相关准备 由于我使用的是已安装并正在运行MapR的个人预配置VM因此此处没有很多准备工作。 但是需要一些步骤才能成功完成ODI映射。 如果您想知道我如何使ODI可以用于MapR发行版则可以参考此博客文章 。 Spark我已经在Spark 1.6.1上进行了测试您也应该这样做。 至少不要转到任何较低版本。 此外您需要针对Spark构建具有特定的标签版本。 我从标签1605这是MapR发布约定开始测试但是我的工作失败了。 究其原因我发现PySpark库不是MapR Streams API的最新版本。 他们可以使用商品Kafka但不能使用MapR。 这是我使用过的RPM的链接 。 Spark日志记录在spark路径下有一个“ config”文件夹其中包含不同的配置文件。 如果需要的话我们只对其中一项感兴趣。 文件名为“ log4j.properties”。 您需要确保将“ rootCategory”参数设置为INFO否则当您运行提交到Spark的任何ODI映射时都会出现异常 Hadoop凭证存储在提交的任何作业中需要某些密码时ODI都将引用Hadoop凭证存储。 这样我们就不会在参数/属性文件或代码本身中包含任何明确的密码。 在此演示中我们将在某个时候使用MySQL因此我需要创建一个存储并为MySQL密码添加别名。 首先您需要确保在core-site.xml中有一个用于凭证存储的条目然后实际上为密码值创建一个别名 上一张图片是我的“ site-core.xml”的摘要向您显示了我添加的凭据存储。 下一步将是验证商店是否存在然后为密码值创建别名 更改之后即使在编辑core-site.xml之后也无需重新启动任何hadoop组件。 注意如果您遇到“操作系统异常”例如137请确保您有足够的可用内存。 ODI相关准备 您将在ODI中进行的常规准备工作。 我将在此博客中显示相关内容。 Hadoop数据服务器 以下配置特定于MapR。 如果使用其他发行版则需要输入相关的端口号和路径 Spark-Python数据服务器 在此ODI版本12.2.1.2.6中如果要使用Spark Streaming和常规Spark服务器/群集则需要创建多个Spark数据服务器。 在此演示中我仅创建了Spark Streaming服务器并将其称为Spark-Async。 您需要将“主群集”值更改为实际使用的值yarn-client或yarn-cluster然后选择我们先前创建的Hadoop DataServer。 现在这里配置的有趣部分是Spark-Async数据服务器的属性 我已经强调了您需要注意的最重要的方面。 之所以使用ASYNC是因为我们将使用Spark Streaming。 其余属性与性能有关。 Kafka数据服务器 在这里我们将定义MapR Streams数据服务器 元数据代理具有一个“虚拟”地址仅符合Kafka API。 MapR Streams客户端将为您提供连接到MapR Streams所需的服务。 您可能无法在此处测试数据服务器因为在MapR上没有运行这样的Kafka服务器。 因此请安全地忽略此处的测试连接因为它将失败这样就可以了。 对于属性您需要定义以下内容 您需要手动定义“ key.deserializer”和“ value.deserializer”。 MapR Streams都需要这两者如果未定义作业作业将失败。 ODI映射设计 我已经在这里进行了测试涵盖了五个用例。 但是我将只完整介绍一个并突出显示其他内容以免您阅读多余和常识性的步骤。 1MapR StreamsKafka Spark Streaming MapR StreamsKafka 在此映射中我们将从先前创建的主题中读取流数据应用一些功能简单的功能然后将结果生成到另一个主题。 这是映射的逻辑设计 我通过复制已经为MySQL反向工程设计的模型之一结构相同定义了MapR_Streams_Registrations1模型但是在这种情况下当然选择的技术是Kafka。 您将能够选择流数据的格式AvroJSONParquet或Delimited 物理设计如下所示 SOURCE_GROUP这是我们的MapR Streams主题“注册” TRANS_GROUP这是我们的Spark异步服务器 TARGET_GROUP这是我们的MapR Streams主题“ registrations2” 物理实现的属性为 您需要选择暂存位置作为Spark Async并启用“流式传输”。 要将主题注册中的流数据加载到Spark流中我们需要选择合适的LKM即LKM Kafka到Spark 然后从Spark Streaming加载到MapR Stream目标主题registrations2我们需要选择LKM Spark到Kafka 2MapR-FSHDFS Spark Streaming MapR StreamsKafka 除了使用的知识模块之外我在这里不会向您展示太多。 要将MapR-FSHDFS加载到Spark Streaming我使用了LKM File来Spark 为了从Spark Streaming加载到MapR Streams我像以前的映射一样使用LKM Spark到Kafka。 注意LKM File to Spark将充当一个流一个文件流显然。 ODI将仅接收任何更新/新文件而不是静态文件。 3MapR StreamsKafka Spark Streaming MySQL 要将MapR StreamsKafka加载到Spark Streaming就像在第一个映射中一样我使用了LKM Kafka到Spark。 然后从Spark Streaming加载到MySQL我使用了LKM Spark到SQL 4MapR流Kafka Spark流 MapR-FSHDFS 为了从MapR流加载到Spark流我像以前一样使用LKM Kafka到Spark然后从Spark Stream加载到MapR-FSHDFS我已经使用LKM Spark到File 5MapR StreamsKafka和Oracle DB Spark Streaming MySQL 这是另一个有趣的用例您实际上可以在现场将Kafka流与SQL源一起加入。 这仅当前适用于查找组件 请注意驱动程序源必须是Kafka在我们的示例中为MapR流而查找源必须是SQL数据库。 我使用了与以前的映射几乎相同的LKM从LKM SQL到Spark从LKM Kafka到Spark和从LKM Spark到SQL。 行刑 我将仅向您展示第一个用例的执行步骤即MapR StreamsKafka Spark Streaming MapR StreamsKafka。 为了模拟这种情况我创建了一个Kafka生产者控制台和另一个Kafka消费者控制台以便可以监视结果。 查看下面的生产者我粘贴了一些记录 我已经突出显示了其中一个URL以确保您注意到它是小写的。 等待几秒钟Spark将处理这些消息并将其发送到目标MapR Streams主题 请注意所有URL均大写。 成功 通过映射结果与预期的一样。 因为它们很简单所以我不会为它们显示测试步骤。 这里的想法是向您展示如何使用MapR StreamsKafka配置ODI。 最后的话 值得一提的是在执行任何映射时您都可以钻取日志并查看正在发生的事情生成的代码等。 此外您将获得指向工作历史URL的链接以在Spark UI上访问它 打开链接将带我们到Spark UI 如果要控制流作业可以生存多长时间则需要增加Spark-Async数据服务器的“ spark.streaming.timeout”属性或从映射配置本身覆盖它。 您可能还需要创建一个ODI程序包该程序包具有一个循环和其他有用的组件来满足您的业务需求。 结论 ODI可以处理lambda架构中的两个层批处理层和快速层。 这不仅是ODI在其非常长的综合功能列表中添加的一项重要功能而且还将提高从一个统一易于使用的界面设计数据管道的生产率和效率。 显然ODI可以像使用商品Kafka一样轻松地与MapR Streams一起使用这要感谢MapR的二进制文件与Kafka API兼容以及ODI不需要依赖于一个框架。 这可以确保您ODI是真正的开放式模块化E-LT工具与其他工具不同。 其他一些相关职位 Oracle Data Integrator和MapR融合数据平台请检查 使用Oracle GoldenGate将事务数据流式传输到MapR流中 使用Oracle GoldenGate进行MapR-FS实时事务数据提取 带有ODI的逆向工程师MapR-DB 免责声明 这里表达的思想实践和观点仅是作者的观点不一定反映Oracle的观点。 翻译自: https://www.javacodegeeks.com/2017/02/perfecting-lambda-architecture-oracle-data-integrator-kafka-mapr-streams.html
http://www.zqtcl.cn/news/316192/

相关文章:

  • 设置网站模板汉口网站建设公司
  • 网站对一个关键词做排名怎么做网站建设 图纸网
  • 什么网站比较吸引流量网页设计代码td
  • 克隆网站怎么做后台wordpress网站缩
  • 仁怀哪儿做网站泰安市建设局
  • 做网站和编程有关系吗手机怎么做电子书下载网站
  • 网站做关键词排名网站快速排名的方法
  • 有网站模板如何预览泉州app开发
  • 网站自助建站系统重庆皇华建设集团有限公司网站
  • 云速成美站做网站好吗汕头制作网站
  • 搜狗搜索网站提交入口在哪里做卖车网站
  • 河南省百城建设提质网站新人怎么做电商
  • 建设机械网站制作创建个人网站教案
  • 无锡网站推广装修风格大全2023新款
  • 在线设计logo免费网站如何在网站上添加qq
  • 高端网站建设哪里好网站建设与管理案例教程
  • 云南专业网站建设上海百度移动关键词排名优化
  • 如何搭建一个完整的网站wordpress 小程序开发
  • 外贸网站建设关键点为网站网站做代理被判缓刑
  • 网站免费正能量小说台州百度关键词优化
  • 保定自助建站做静态网站
  • 旅游网站对比模板免费招收手游代理
  • phpstudy网站建设教程wordpress破解管理员帐号
  • 商务网站规划与建设心得北京小程序制作首选华网天下
  • 果洛电子商务网站建设多少钱公司网站建设选什么服务器
  • 莱芜做网站公司网站建设表单教案
  • 建设酒类产品网站的好处遵义网站制作费用
  • 高端网站设计价格wordpress登录下载附件
  • 国内有名的网站设计公司wordpress缓存插件比拼
  • 网站的建设和推广直播营销策划方案范文