当前位置：首页 > news >正文

专做国外商品的网站网站开发亿玛酷专注4

news 2025/11/14 17:18:18

专做国外商品的网站,网站开发亿玛酷专注4,阳山做网站,网站推广方案案例星光下的赶路人star的个人主页这世上唯一扛得住岁月摧残的就是才华文章目录 1、状态管理1.1 Flink中的状态1.1.1 概述1.1.2 状态的分类 1.2 按键分区状态#xff08;Keyed State#xff09;1.2.1 值状态#xff08;ValueState#xff09;1.2.2 列表状态#xff08;ListS… 星光下的赶路人star的个人主页这世上唯一扛得住岁月摧残的就是才华文章目录 1、状态管理1.1 Flink中的状态1.1.1 概述1.1.2 状态的分类 1.2 按键分区状态Keyed State1.2.1 值状态ValueState1.2.2 列表状态ListState1.2.3 Map状态MapState1.2.4 归约状态ReducingState1.2.5 聚合状态AggregatingState1.2.6 状态生存时间TTL 1.3 算子状态Operator State1.3.1 列表状态ListState1.3.2 联合列表状态1.3.3 广播状态BroadCastState 1、状态管理 1.1 Flink中的状态 1.1.1 概述 1.1.2 状态的分类 1、托管状态Managed State和原始状态Raw State Flink的状态有两种托管状态Managed State和原始状态Raw State。托管状态就是由Flink统一管理的状态的存储访问、故障恢复和重组等一系列问题都由Flink实现我们只要调接口就可以而原始状态则是自定义的相当于就是开辟了一块内存需要我们自己管理实现状态的序列化和故障恢复。通常我们采用Flink托管状态来实现需求。 2、算子状态Operator和按键分区状态Keyed State 接下来我们的重点就是托管状态Managed State。我们知道在Flink中一个算子任务会按照并行度分为多个并行子任务执行而不同的子任务会占据不同的任务槽task slot。由于不同的slot在计算资源上是物理隔离的所以Flink能管理的状态在并行任务间是无法共享的每个状态只能针对当前子任务的实例有效。而很多有状态的操作比如聚合、窗口都是要先做keyBy进行按键分区的。按键分区之后任务所进行的所有计算都应该只针对当前key有效所以状态也应该按照key彼此隔离。在这种情况下状态的访问方式又会有所不同。基于这样的想法我们又可以将托管状态分为两类算子状态和按键分区状态。按键分区状态另外也可以通过富函数类Rich Function来自定义Keyed State所以只要提供了富函数类接口的算子也都可以使用Keyed State。所以即使是map、filter这样无状态的基本转换算子我们也可以通过富函数类给它们“追加”Keyed State。比如RichMapFunction、RichFilterFunction。在富函数中我们可以调用.getRuntimeContext()获取当前的运行时上下文RuntimeContext进而获取到访问状态的句柄这种富函数中自定义的状态也是Keyed State。从这个角度讲Flink中所有的算子都可以是有状态的。无论是Keyed State还是Operator State它们都是在本地实例上维护的也就是说每个并行子任务维护着对应的状态算子的子任务之间状态不共享。 1.2 按键分区状态Keyed State 按键分区状态Keyed State顾名思义是任务按照键key来访问和维护的状态。它的特点非常鲜明就是以key为作用范围进行隔离。需要注意使用Keyed State必须基于KeyedStream。没有进行keyBy分区的DataStream即使转换算子实现了对应的富函数类也不能通过运行时上下文访问Keyed Stat 1.2.1 值状态ValueState 顾名思义状态中只保存一个“值”value。ValueState本身是一个接口源码中定义如下 public interface ValueStateT extends State {T value() throws IOException;void update(T value) throws IOException; }这里的T是泛型表示状态的数据内容可以是任何具体的数据类型。如果想要保存一个长整型值作为状态那么类型就是ValueState。我们可以在代码中读写值状态实现对于状态的访问和更新。 T value()获取当前状态的值update(T value)对状态进行更新传入的参数value就是要覆写的状态值。在具体使用时为了让运行时上下文清楚到底是哪个状态我们还需要创建一个“状态描述器”StateDescriptor来提供状态的基本信息。例如源码中ValueState的状态描述器构造方法如下 public ValueStateDescriptor(String name, ClassT typeClass) {super(name, typeClass, null); }这里需要传入状态的名称和类型——这跟我们声明一个变量时做的事情完全一样。案例 *** keyedState在使用时只需要先keyBy* 在后续的处理函数中自带生命周期方法* open():需要再Task启动时从之前的备份中根据描述取出状态** 特点每一个Task上各种key各有各的State互不干扰* ------------------------------------------------* ValueState储存单个值可以是任意类型* -------------------------------------------------* 检测每种传感器的水位值如果连续的两个水位值超过10就输出报警*/ public class Demo01_ValueState {public static void main(String[] args) throws Exception {//创建Flink配置类空参创建的话都是默认值Configuration configuration new Configuration();//修改配置类中的WebUI端口号configuration.setInteger(rest.port,3333);//创建Flink环境并且传入配置对象StreamExecutionEnvironment env StreamExecutionEnvironment.getExecutionEnvironment(configuration);env.socketTextStream(hadoop102,9999).map(new WaterSensorFunction()).keyBy(WaterSensor::getId).process(new KeyedProcessFunctionString, WaterSensor, String() {private ValueStateInteger state;Overridepublic void open(Configuration parameters) throws Exception {//设置状态存储的描述器ValueStateDescriptorInteger stateDescriptor new ValueStateDescriptor(state, Integer.class);//获取状态的存储state getRuntimeContext().getState(stateDescriptor);}Overridepublic void processElement(WaterSensor value, KeyedProcessFunctionString, WaterSensor, String.Context ctx, CollectorString out) throws Exception {//如果状态中从来没有存储过数据此时lastVc是nullInteger lastVc state.value();//连续两个水位值超过10就输出报警if (lastVc!nulllastVc10value.getVc()10){out.collect(ctx.getCurrentKey()连续两个传感器的vc(lastVc,value.getVc())超过10.....);}state.update(value.getVc());}}).print();env.execute();} } 测试截图 1.2.2 列表状态ListState 将需要保存的数据以列表List的形式组织起来。在ListState接口中同样有一个类型参数T表示列表中数据的类型。ListState也提供了一系列的方法来操作状态使用方式与一般的List非常相似。 Iterable get()获取当前的列表状态返回的是一个可迭代类型Iterableupdate(List values)传入一个列表values直接对状态进行覆盖add(T value)在状态列表中添加一个元素valueaddAll(List values)向列表中添加多个元素以列表values形式传入。类似地ListState的状态描述器就叫作ListStateDescriptor用法跟ValueStateDescriptor完全一致。 /*** keyedState在使用时只需要先keyBy* 在后续的处理函数中自带生命周期方法* open():需要再Task启动时从之前的备份中根据描述取出状态** 特点每一个Task上各种key各有各的State互不干扰* ------------------------------------------------* ListState储存多个类型相同的值可以是任意类型* -------------------------------------------------* 取水位最高的前三*/ public class Demo02_ListState {public static void main(String[] args) throws Exception {//创建Flink配置类空参创建的话都是默认值Configuration configuration new Configuration();//修改配置类中的WebUI端口号configuration.setInteger(rest.port,3333);//创建Flink环境并且传入配置对象StreamExecutionEnvironment env StreamExecutionEnvironment.getExecutionEnvironment(configuration);env.socketTextStream(hadoop102,9999).map(new WaterSensorFunction()).keyBy(WaterSensor::getId).process(new KeyedProcessFunctionString, WaterSensor, String() {private ListStateInteger state;Overridepublic void open(Configuration parameters) throws Exception {//设置状态存储的描述器ListStateDescriptorInteger listStateDescriptor new ListStateDescriptor(state, Integer.class);//获取状态的存储state getRuntimeContext().getListState(listStateDescriptor);}Overridepublic void processElement(WaterSensor value, KeyedProcessFunctionString, WaterSensor, String.Context ctx, CollectorString out) throws Exception {state.add(value.getVc());ListInteger top3 StreamSupport.stream(state.get().spliterator(), true).sorted(Comparator.reverseOrder()).limit(3).collect(Collectors.toList());out.collect(ctx.getCurrentKey()最新Top水位top3);state.update(top3);}}).print();env.execute();}public static class MyMapFunction implements MapFunctionString ,String, CheckpointedFunction{//private ListString strs new ArrayList();/*把它当List集合用。添加元素:ListState.add()ListState.addAll()删除: ListState.clear()修改: ListState.update() 覆盖修改等价于先清空再写入读取: ListState.get()*/private ListStateString strs;private ListStateString strs1;private ListStateString strs2;Overridepublic String map(String value) throws Exception {strs.add(value);return strs.get().toString();}//备份状态周期性(ck设置的周期)执行。Overridepublic void snapshotState(FunctionSnapshotContext context) throws Exception {System.out.println(MyMapFunction.snapshotState);}//Task重启后做初始化。为声明的状态去赋值和恢复。在Task启动时只执行一次Overridepublic void initializeState(FunctionInitializationContext context) throws Exception {System.out.println(MyMapFunction.initializeState);//找到之前OperatorState的备份OperatorStateStore operatorStateStore context.getOperatorStateStore();//准备要取出的状态的描述ListStateDescriptorString strsListStateDescriptor new ListStateDescriptor(list1, String.class);//从备份中找到指定的状态取出strs operatorStateStore.getListState(strsListStateDescriptor);}} } 测试截图 1.2.3 Map状态MapState 把一些键值对key-value作为状态整体保存起来可以认为就是一组key-value映射的列表。对应的MapStateUK, UV接口中就会有UK、UV两个泛型分别表示保存的key和value的类型。同样MapState提供了操作映射状态的方法与Map的使用非常类似。 UV get(UK key)传入一个key作为参数查询对应的value值put(UK key, UV value)传入一个键值对更新key对应的value值putAll(MapUK, UV map)将传入的映射map中所有的键值对全部添加到映射状态中remove(UK key)将指定key对应的键值对删除boolean contains(UK key)判断是否存在指定的key返回一个boolean值。另外MapState也提供了获取整个映射相关信息的方法IterableMap.EntryUK, UV entries()获取映射状态中所有的键值对Iterable keys()获取映射状态中所有的键key返回一个可迭代Iterable类型Iterable values()获取映射状态中所有的值value返回一个可迭代Iterable类型boolean isEmpty()判断映射是否为空返回一个boolean值。案例 /*** keyedState在使用时只需要先keyBy* 在后续的处理函数中自带生命周期方法* open():需要再Task启动时从之前的备份中根据描述取出状态** 特点每一个Task上各种key各有各的State互不干扰* ------------------------------------------------* mapState储存多个值可以是任意类型* -------------------------------------------------* 统计每种传感器每种水位值出现的次数*/ public class Demo03_MapState {public static void main(String[] args) throws Exception {//创建Flink配置类空参创建的话都是默认值Configuration configuration new Configuration();//修改配置类中的WebUI端口号configuration.setInteger(rest.port,3333);//创建Flink环境并且传入配置对象StreamExecutionEnvironment env StreamExecutionEnvironment.getExecutionEnvironment(configuration);env.socketTextStream(hadoop102,9999).map(new WaterSensorFunction()).keyBy(WaterSensor::getId).process(new KeyedProcessFunctionString, WaterSensor, String() {private MapStateInteger,Integer state;Overridepublic void open(Configuration parameters) throws Exception {//设置状态存储的描述器MapStateDescriptorInteger, Integer mapStateDescriptor new MapStateDescriptor(state, Integer.class, Integer.class);//获取状态的存储state getRuntimeContext().getMapState(mapStateDescriptor);}Overridepublic void processElement(WaterSensor value, KeyedProcessFunctionString, WaterSensor, String.Context ctx, CollectorString out) throws Exception {if (state.get(value.getVc())!null){Integer nums state.get(value.getVc());state.put(value.getVc(),nums1);}else {state.put(value.getVc(),1);}out.collect(ctx.getCurrentKey():state.entries().toString());}}).print();env.execute();} } 测试截图 1.2.4 归约状态ReducingState 类似于值状态Value不过需要对添加进来的所有数据进行归约将归约聚合之后的值作为状态保存下来。ReducingState这个接口调用的方法类似于ListState只不过它保存的只是一个聚合值所以调用.add()方法时不是在状态列表里添加元素而是直接把新数据和之前的状态进行归约并用得到的结果更新状态。归约逻辑的定义是在归约状态描述器ReducingStateDescriptor中通过传入一个归约函数ReduceFunction来实现的。这里的归约函数就是我们之前介绍reduce聚合算子时讲到的ReduceFunction所以状态类型跟输入的数据类型是一样的。 public ReducingStateDescriptor(String name, ReduceFunctionT reduceFunction, ClassT typeClass) {...}这里的描述器有三个参数其中第二个参数就是定义了归约聚合逻辑的ReduceFunction另外两个参数则是状态的名称和类型。 /*** 带有聚合功能的状态需要吧数据存入状态可以自动根据逻辑聚合* 获取状态的值就是聚合后的结果*** 计算每个传感器的水位和**/ public class Demo04_ReduceState {public static void main(String[] args) throws Exception {//创建Flink配置类空参创建的话都是默认值Configuration configuration new Configuration();//修改配置类中的WebUI端口号configuration.setInteger(rest.port,3333);//创建Flink环境并且传入配置对象StreamExecutionEnvironment env StreamExecutionEnvironment.getExecutionEnvironment(configuration);env.socketTextStream(hadoop102,9999).map(new WaterSensorFunction()).keyBy(WaterSensor::getId).process(new KeyedProcessFunctionString, WaterSensor, String() {private ReducingStateInteger state;Overridepublic void open(Configuration parameters) throws Exception {//设置状态存储的描述器ReducingStateDescriptor stateDescriptor new ReducingStateDescriptor(state,new ReduceFunctionInteger() {Overridepublic Integer reduce(Integer value1, Integer value2) throws Exception {return value1value2;}},Integer.class);//获取状态的存储state getRuntimeContext().getReducingState(stateDescriptor);}Overridepublic void processElement(WaterSensor value, KeyedProcessFunctionString, WaterSensor, String.Context ctx, CollectorString out) throws Exception {state.add(value.getVc());out.collect(ctx.getCurrentKey():state.get());}}).print();env.execute();} } 测试截图 1.2.5 聚合状态AggregatingState 与归约状态非常类似聚合状态也是一个值用来保存添加进来的所有数据的聚合结果。与ReducingState不同的是它的聚合逻辑是由在描述器中传入一个更加一般化的聚合函数AggregateFunction来定义的这也就是之前我们讲过的AggregateFunction里面通过一个累加器Accumulator来表示状态所以聚合的状态类型可以跟添加进来的数据类型完全不同使用更加灵活。同样地AggregatingState接口调用方法也与ReducingState相同调用.add()方法添加元素时会直接使用指定的AggregateFunction进行聚合并更新状态。 /*** 带有聚合功能的状态需要吧数据存入状态可以自动根据逻辑聚合* 获取状态的值就是聚合后的结果*** 计算每个传感器的水位平均值**/ public class Demo06_AggregatingState {public static void main(String[] args) throws Exception {//创建Flink配置类空参创建的话都是默认值Configuration configuration new Configuration();//修改配置类中的WebUI端口号configuration.setInteger(rest.port,3333);//创建Flink环境并且传入配置对象StreamExecutionEnvironment env StreamExecutionEnvironment.getExecutionEnvironment(configuration);env.socketTextStream(hadoop102,9999).map(new WaterSensorFunction()).keyBy(WaterSensor::getId).process(new KeyedProcessFunctionString, WaterSensor, String() {private AggregatingStateInteger, Double state;Overridepublic void open(Configuration parameters) throws Exception {//设置状态存储的描述器//获取状态的存储state getRuntimeContext().getAggregatingState(new AggregatingStateDescriptor(state,new AggregateFunctionInteger, Tuple2Integer, Double, Double(){Overridepublic Tuple2Integer, Double createAccumulator() {return Tuple2.of(0, 0d);}Overridepublic Tuple2Integer, Double add(Integer value, Tuple2Integer, Double accumulator) {accumulator.f0 1;accumulator.f1 value;return accumulator;}Overridepublic Double getResult(Tuple2Integer, Double accumulator) {return accumulator.f1 / accumulator.f0;}//不用写Overridepublic Tuple2Integer, Double merge(Tuple2Integer, Double a, Tuple2Integer, Double b) {return null;}},Types.TUPLE(Types.INT, Types.DOUBLE)));}Overridepublic void processElement(WaterSensor value, KeyedProcessFunctionString, WaterSensor, String.Context ctx, CollectorString out) throws Exception {state.add(value.getVc());//取出结果out.collect(ctx.getCurrentKey() avgVc state.get());}}).print();env.execute();} } 测试截图 1.2.6 状态生存时间TTL 在实际应用中很多状态会随着时间的推移逐渐增长如果不加以限制最终就会导致存储空间的耗尽。一个优化的思路是直接在代码中调用.clear()方法去清除状态但是有时候我们的逻辑要求不能直接清除。这时就需要配置一个状态的“生存时间”time-to-liveTTL当状态在内存中存在的时间超出这个值时就将它清除。具体实现上如果用一个进程不停地扫描所有状态看是否过期显然会占用大量资源做无用功。状态的失效其实不需要立即删除所以我们可以给状态附加一个属性也就是状态的“失效时间”。状态创建的时候设置失效时间当前时间 TTL之后如果有对状态的访问和修改我们可以再对失效时间进行更新当设置的清除条件被触发时比如状态被访问的时候或者每隔一段时间扫描一次失效状态就可以判断状态是否失效、从而进行清除了。配置状态的TTL时需要创建一个StateTtlConfig配置对象然后调用状态描述器的.enableTimeToLive()方法启动TTL功能。 StateTtlConfig ttlConfig StateTtlConfig.newBuilder(Time.seconds(10)).setUpdateType(StateTtlConfig.UpdateType.OnCreateAndWrite).setStateVisibility(StateTtlConfig.StateVisibility.NeverReturnExpired).build();ValueStateDescriptorString stateDescriptor new ValueStateDescriptor(my state, String.class);stateDescriptor.enableTimeToLive(ttlConfig);这里用到了几个配置项 .newBuilder() 状态TTL配置的构造器方法必须调用返回一个Builder之后再调用.build()方法就可以得到StateTtlConfig了。方法需要传入一个Time作为参数这就是设定的状态生存时间。.setUpdateType() 设置更新类型。更新类型指定了什么时候更新状态失效时间这里的OnCreateAndWrite表示只有创建状态和更改状态写操作时更新失效时间。另一种类型OnReadAndWrite则表示无论读写操作都会更新失效时间也就是只要对状态进行了访问就表明它是活跃的从而延长生存时间。这个配置默认为OnCreateAndWrite。.setStateVisibility() 设置状态的可见性。所谓的“状态可见性”是指因为清除操作并不是实时的所以当状态过期之后还有可能继续存在这时如果对它进行访问能否正常读取到就是一个问题了。这里设置的NeverReturnExpired是默认行为表示从不返回过期值也就是只要过期就认为它已经被清除了应用不能继续读取这在处理会话或者隐私数据时比较重要。对应的另一种配置是ReturnExpireDefNotCleanedUp就是如果过期状态还存在就返回它的值。除此之外TTL配置还可以设置在保存检查点checkpoint时触发清除操作或者配置增量的清理incremental cleanup还可以针对RocksDB状态后端使用压缩过滤器compaction filter进行后台清理。这里需要注意目前的TTL设置只支持处理时间。 /*** 程序是7*24小时一直运行* 状态是储存在内存中。如果不动手清理(Clear())状态会越存越多。* 内存是有限的当状态过多时需要把一些可以清理的状态清理掉。* 实现方式* 自己调用clear()* 自动清理设置一个过期时间* ----------------------------------------------* 过期时间 ttl time to live** 1、设置一个过期对象* 2、讲对象传入在open方法中的状态描述的方法中**/ public class Demo09_Ttl{public static void main(String[] args) throws Exception {//创建Flink配置类空参创建的话都是默认值Configuration configuration new Configuration();//修改配置类中的WebUI端口号configuration.setInteger(rest.port,3333);//创建Flink环境并且传入配置对象StreamExecutionEnvironment env StreamExecutionEnvironment.getExecutionEnvironment(configuration);//并行度env.setParallelism(1);//构造状态的过期时间对象StateTtlConfig ttlConfig StateTtlConfig//传入状态的存活时间.newBuilder(Time.seconds(15))//状态过期了就不返回了.neverReturnExpired()/*** 清理过期状态的原理* 如果设置了ttl此时每个状态在存储的时候会多储存一个lastAccessTime字段** 设置状态中存活时间的更新策略。用来更新lastAccessTime* OnCreateAndWritelastAccessTime会在状态被写的时候更新* OnReadAndWritelastAccessTime会在状态被读或写的时候更新* 如何判断过期* 没有事件时间的概念只和物理时钟有关** 当前读写时间-lastAccessTimettl,此时标记这个状态已经过期* 之后会在后台启动一个清理的线程定期把标记为过期的状态删除*/.setUpdateType(StateTtlConfig.UpdateType.OnReadAndWrite).build();env.socketTextStream(hadoop102,9999).map(new WaterSensorFunction()).keyBy(WaterSensor::getId).process(new KeyedProcessFunctionString, WaterSensor, String() {private ListStateInteger listState;Overridepublic void open(Configuration parameters) throws Exception {ListStateDescriptorInteger listStateDescriptor new ListStateDescriptor(state, Integer.class);//应用存货策略listStateDescriptor.enableTimeToLive(ttlConfig);listState getRuntimeContext().getListState(listStateDescriptor);}Overridepublic void processElement(WaterSensor value, KeyedProcessFunctionString, WaterSensor, String.Context ctx, CollectorString out) throws Exception {listState.add(value.getVc());IterableInteger integers listState.get();ListInteger top3 StreamSupport.stream(integers.spliterator(), true).sorted(Comparator.reverseOrder()).limit(3).collect(Collectors.toList());out.collect(ctx.getCurrentKey()最新Top3top3);listState.update(top3);}}).print();env.execute();} } 测试截图注意最后一条记录要在上一条记录发送之后15秒之后再发 1.3 算子状态Operator State 算子状态Operator State就是一个算子并行实例上定义的状态作用范围被限定为当前算子任务。算子状态跟数据的key无关所以不同key的数据只要被分发到同一个并行子任务就会访问到同一个Operator State。算子状态的实际应用场景不如Keyed State多一般用在Source或Sink等与外部系统连接的算子上或者完全没有key定义的场景。比如Flink的Kafka连接器中就用到了算子状态。当算子的并行度发生变化时算子状态也支持在并行的算子任务实例之间做重组分配。根据状态的类型不同重组分配的方案也会不同。算子状态也支持不同的结构类型主要有三种ListState、UnionListState和BroadcastState。 1.3.1 列表状态ListState 与Keyed State中的ListState一样将状态表示为一组数据的列表。与Keyed State中的列表状态的区别是在算子状态的上下文中不会按键key分别处理状态所以每一个并行子任务上只会保留一个“列表”list也就是当前并行子任务上所有状态项的集合。列表中的状态项就是可以重新分配的最细粒度彼此之间完全独立。当算子并行度进行缩放调整时算子的列表状态中的所有元素项会被统一收集起来相当于把多个分区的列表合并成了一个“大列表”然后再均匀地分配给所有并行任务。这种“均匀分配”的具体方法就是“轮询”round-robin与之前介绍的rebanlance数据传输方式类似是通过逐一“发牌”的方式将状态项平均分配的。这种方式也叫作“平均分割重组”even-split redistribution。算子状态中不会存在“键组”key group这样的结构所以为了方便重组分配就把它直接定义成了“列表”list。这也就解释了为什么算子状态中没有最简单的值状态ValueState。案例实操在map算子中计算数据的个数。 public class OperatorListStateDemo {public static void main(String[] args) throws Exception {StreamExecutionEnvironment env StreamExecutionEnvironment.getExecutionEnvironment();env.setParallelism(2);env.socketTextStream(hadoop102, 7777).map(new MyCountMapFunction()).print();env.execute();}// TODO 1.实现 CheckpointedFunction 接口public static class MyCountMapFunction implements MapFunctionString, Long, CheckpointedFunction {private Long count 0L;private ListStateLong state;Overridepublic Long map(String value) throws Exception {return count;}/*** TODO 2.本地变量持久化将本地变量拷贝到算子状态中,开启checkpoint时才会调用** param context* throws Exception*/Overridepublic void snapshotState(FunctionSnapshotContext context) throws Exception {System.out.println(snapshotState...);// 2.1 清空算子状态state.clear();// 2.2 将本地变量添加到算子状态中state.add(count);}/*** TODO 3.初始化本地变量程序启动和恢复时从状态中把数据添加到本地变量每个子任务调用一次** param context* throws Exception*/Overridepublic void initializeState(FunctionInitializationContext context) throws Exception {System.out.println(initializeState...);// 3.1 从上下文初始化算子状态state context.getOperatorStateStore().getListState(new ListStateDescriptorLong(state, Types.LONG));// 3.2 从算子状态中把数据拷贝到本地变量if (context.isRestored()) {for (Long c : state.get()) {count c;}}}} }1.3.2 联合列表状态与ListState类似联合列表状态也会将状态表示为一个列表。它与常规列表状态的区别在于算子并行度进行缩放调整时对于状态的分配方式不同。 UnionListState的重点就在于“联合”union。在并行度调整时常规列表状态是轮询分配状态项而联合列表状态的算子则会直接广播状态的完整列表。这样并行度缩放之后的并行子任务就获取到了联合后完整的“大列表”可以自行选择要使用的状态项和要丢弃的状态项。这种分配也叫作“联合重组”union redistribution。如果列表中状态项数量太多为资源和效率考虑一般不建议使用联合重组的方式。使用方式同ListState区别在如下部分 state context.getOperatorStateStore().getUnionListState(new ListStateDescriptorLong(union-state, Types.LONG));1.3.3 广播状态BroadCastState 有时我们希望算子并行子任务都保持同一份“全局”状态用来做统一的配置和规则设定。这时所有分区的所有数据都会访问到同一个状态状态就像被“广播”到所有分区一样这种特殊的算子状态就叫作广播状态BroadcastState。因为广播状态在每个并行子任务上的实例都一样所以在并行度调整的时候就比较简单只要复制一份到新的并行任务就可以实现扩展而对于并行度缩小的情况可以将多余的并行子任务连同状态直接砍掉——因为状态都是复制出来的并不会丢失。 /*** 场景单一* 用于一个配置流在更新配置时可以将更新的信息放入广播状态* 数据流可以提供广播状态及时获取更新的配置信息*/ public class Demo04_BroadCastState {public static void main(String[] args) throws Exception {//创建Flink配置类空参创建的话都是默认值Configuration configuration new Configuration();//修改配置类中的WebUI端口号configuration.setInteger(rest.port,3333);//创建Flink环境并且传入配置对象StreamExecutionEnvironment env StreamExecutionEnvironment.getExecutionEnvironment(configuration);env.setParallelism(2);env.enableCheckpointing(2000);//数据流SingleOutputStreamOperatorWaterSensor dataDS env.socketTextStream(hadoop102, 9999).map(new WaterSensorFunction());//配置流SingleOutputStreamOperatorMyConf configDS env.socketTextStream(hadoop102, 9998).map(new MapFunctionString, MyConf() {Overridepublic MyConf map(String value) throws Exception {String[] split value.split(,);return new MyConf(split[0], split[1]);}});//只有把普通流制作为广播流才能用广播状态MapStateDescriptorString, MyConf mapStateDescriptor new MapStateDescriptor(config, String.class, MyConf.class);BroadcastStreamMyConf confBroadcastStream configDS.broadcast(mapStateDescriptor);//数据流希望读取配置流中的信息必须让两个流连接dataDS.connect(confBroadcastStream).process(new BroadcastProcessFunctionWaterSensor, MyConf, WaterSensor() {//处理数据流的数据Overridepublic void processElement(WaterSensor value, BroadcastProcessFunctionWaterSensor, MyConf, WaterSensor.ReadOnlyContext ctx, CollectorWaterSensor out) throws Exception {//获取广播状态ReadOnlyBroadcastStateString, MyConf broadcastState ctx.getBroadcastState(mapStateDescriptor);MyConf myConf broadcastState.get(value.getId());//用收到的配置信息更新数据中的属性value.setId(myConf.getName());out.collect(value);}//处理配置流的数据Overridepublic void processBroadcastElement(MyConf value, BroadcastProcessFunctionWaterSensor, MyConf, WaterSensor.Context ctx, CollectorWaterSensor out) throws Exception {//一旦收到了新的配置就存入广播状态//当作map用BroadcastStateString, MyConf broadcastState ctx.getBroadcastState(mapStateDescriptor);broadcastState.put(value.id,value);}}).print();env.execute();}DataAllArgsConstructorNoArgsConstructorpublic static class MyConf{private String id;private String name;} } 测试截图您的支持是我创作的无限动力希望我能为您的未来尽绵薄之力如有错误谢谢指正若有收获谢谢赞美

查看全文

http://www.zqtcl.cn/news/882735/