网站建设编辑叫什么岗位,制作公司网页要注意什么问题,网站推广免费渠道,网站建设摊销年限最新规定目录
Lambda架构
Kappa架构 Lambda架构
Lambda架构由Twitter的首席科学家Nathan Marz提出。这种架构试图平衡延迟、吞吐量、容错性和系统复杂性四个方面#xff0c;以满足大数据和实时数据处理的需求。Lambda架构主要由三个层次组成#xff1a; 批处理层#xff08;Batch…目录
Lambda架构
Kappa架构 Lambda架构
Lambda架构由Twitter的首席科学家Nathan Marz提出。这种架构试图平衡延迟、吞吐量、容错性和系统复杂性四个方面以满足大数据和实时数据处理的需求。Lambda架构主要由三个层次组成 批处理层Batch Layer负责处理大量的历史数据生成批处理视图。 速度层Speed Layer负责处理最新的数据生成实时视图。 服务层Serving Layer负责将批处理视图和实时视图合并提供最终的数据视图。
这种架构的主要优点是能够处理大规模的数据并能对新数据进行实时处理。但是由于需要维护两种处理机制批处理和实时处理所以系统的复杂性也相对较高缺点如下
1)同样的需求需要开发两套一样的代码
这是 Lambda 架构最大的问题针对同一个需求需要开发两套代码一个在批处理引擎上实现一个在流处理引擎上实现在写好代码后还需构造数据测试保证两者结果一致另外两套代码对于后期维护也非常麻烦一旦需求变更两套代码都需要修改并且两套代码也需同时上线。
2)集群资源使用增多
同样的逻辑需要计算两次整体占用资源会增多。虽然离线部分是在凌晨运行但是有可能任务多在凌晨时造成集群资源使用暴增报表产出效率就有可能下降报表延迟对后续展示也有影响。
3)离线结果和实时结果不一致
在此架构中经常我们看到次日统计的结果比昨晚的结果要少原因就在于次日统计结果和昨日统计结果走了两条线的计算方式次日统计结果是按照批处理得到了更为准确的批量处理结果。昨晚看的结果是通过流式运行的结果依靠实时链路统计出的实时结果实时结果统计累加牺牲了部分准确性。对于这种来自批量和实时的数据结果对不上的问题无解。
4)批量计算 T1 可能计算不完
随着物联网时代的到来一些企业中数据量级越来越大经常发现夜间运行批量任务已经无法完成白天 20 多个小时累计的数据保证早上上班前准时出现数据已成为部分大数据团队头疼的问题。
5)服务器存储大
由于批流两个过程都需要将数据存储在集群中并且中间也会产生大量临时数据会造成数据急速膨胀加大服务器存储压力。
Kappa架构
Kappa架构由LinkedIn的数据工程师Jay Kreps提出。Kappa架构是对Lambda架构的一种简化它只有一个处理层——实时处理层。
在Kappa架构中所有的数据都被视为实时数据流通过实时处理系统进行处理。当需要处理历史数据时只需要将历史数据重新注入到数据流中即可。
Kappa架构的主要优点是架构简单只需要维护一种处理机制降低了系统的复杂性。同时由于所有数据都是实时处理所以能够实现更低的数据处理延迟。但是这种架构也有其局限性比如处理大规模的历史数据时可能会面临一些挑战