当前位置：首页 > news >正文

湖南营销型网站建设推广手机网站建设技术规范

news 2025/11/14 13:08:20

湖南营销型网站建设推广,手机网站建设技术规范,网站充值页面模板,windows2008 iis 网站配置1 Kafka 概述 Kafka 起初是由 LinkedIn 公司采用 Scala 语言开发的一个多分区、多副本且基于 ZooKeeper 协调的分布式消息系统#xff0c;现已被捐献给 Apache 基金会。目前 Kafka 已经定位为一个分布式流式处理平台#xff0c;它以高吞吐、可持久化、可水平扩展、支持流…1 Kafka 概述 Kafka 起初是由 LinkedIn 公司采用 Scala 语言开发的一个多分区、多副本且基于 ZooKeeper 协调的分布式消息系统现已被捐献给 Apache 基金会。目前 Kafka 已经定位为一个分布式流式处理平台它以高吞吐、可持久化、可水平扩展、支持流数据处理等多种特性而被广泛使用主要是由 Scala 和 Java 编写。它是一种高吞吐量的分布式发布订阅消息系统可以处理事件流数据。通过 Kafka 你可以非常方便的把想要发布的消息分发给任何想要订阅该消息的接收者。上游生产者只需要把消息输入到 Kafka 指定 Topic 下游接收者只要订阅该 Topic 就能低延时、高吞吐量的接收到上游的消息Kafka 还支持同一个 Topic 同时被多个下游消费者消费且不同消费者之间数据处理进度互不干扰。对于一个 topic他的每一个 partition 同一时间只能被同一消费者组中的一个消费者所消费相比于 AMQ它更加轻量级非侵入性的、依赖的东西非常少占用资源非常少部署简单没有太多依赖比较容易使用。目前越来越多的开源分布式处理系统如 Cloudera、Storm、Spark、Flink 等都支持与 Kafka 集成Kafka 之所以受到越来越多的青睐与它所“扮演”的三大角色是分不开的消息系统Kafka 和传统的消息系统也称作消息中间件都具备系统解耦、冗余存储、流量削峰、缓冲、异步通信、扩展性、可恢复性等功能。与此同时Kafka 还提供了大多数消息系统难以实现的消息顺序性保障及回溯消费的功能。存储系统Kafka 把消息持久化到磁盘相比于其他基于内存存储的系统而言有效地降低了数据丢失的风险。也正是得益于 Kafka 的消息持久化功能和多副本机制我们可以把 Kafka 作为长期的数据存储系统来使用只需要把对应的数据保留策略设置为“永久”或启用主题的日志压缩功能即可。流式处理平台Kafka 不仅为每个流行的流式处理框架提供了可靠的数据来源还提供了一个完整的流式处理类库比如窗口、连接、变换和聚合等各类操作。 2 Kafka 解决了什么问题消息队列一般主要处理异步处理、服务解耦、流量控制因此 Kafka 作为消息队列的一种同样在解决这些问题。 3 Kafka 技术特性高吞吐量、低延迟kafka 每秒可以处理几十万条消息它的延迟最低只有几毫秒每个 topic 可以分多个 partition, consumer group 对 partition 进行并行 consume 操作。可扩展性kafka 集群支持热扩展持久性、可靠性消息被持久化到本地磁盘并且支持数据备份防止数据丢失消息被消费仍然不会被立即删除而是会有过期时间。容错性允许集群中节点失败若副本数量为 n,则允许 n-1 个节点失败高并发支持数千个客户端同时读写队列模式所有 consumer 都在一个队列这样消息就在队内进行分区并行消费订阅-发布模式所有 consumer 都不再一个队列这样 topic 消息可以广播给所有订阅的消费者 4 Kafka 工作原理 4.1 架构图 Producer消息生产者也就是发送消息的一方。生产者负责创建消息然后将其投递到 Kafka 中 Consumer消息消费者也就是接收消息的一方。消费者连接到 Kafka 上并接收消息进而进行相应的业务逻辑处理 Consumer Group CG消费者组由多个 consumer 组成。消费者组内每个消费者负责消费不同分区的数据一个分区只能由一个组内消费者消费消费者组之间互不影响。所有的消费者都属于某个消费者组即消费者组是逻辑上的一个订阅者。 Broker服务代理节点。对于 Kafka 而言Broker 可以简单地看作一个独立的 Kafka 服务节点或 Kafka 服务实例。大多数情况下也可以将 Broker 看作一台 Kafka 服务器前提是这台服务器上只部署了一个 Kafka 实例。一个或多个 Broker 组成了一个 Kafka 集群。一般而言我们更习惯使用首字母小写的 broker 来表示服务代理节点。 Controller集群中会有一个或者多个 broker其中有一个 broker 会被选举为控制器Kafka Controller它负责管理整个集群中所有分区和副本的状态。当某个分区的 leader 副本出现故障时由控制器负责为该分区选举新的leader 副本。当检测到某个分区的 ISR 集合发生变化时由控制器负责通知所有 broker 更新其元数据信息。当某个 Topic 增加分区数量时同样还是由控制器负责分区的重新分配。在 Kafka 中还有两个特别重要的概念—主题Topic与分区Partition Topic 可以理解为一个队列生产者和消费者在队列的两端一个输出数据一个消费数据它们面向的都是一个 topic Partition 为了实现扩展性一个数据量非常大的 topic 可以分布到多个 broker即服务器上一个 topic 可以分为多个 partition每个 partition 是一个有序的队列那么 topic 的并发度基本等于 partition 的个数。 Kafka 中的消息以主题为单位进行归类生产者负责将消息发送到特定的主题发送到 Kafka 集群中的每一条消息都要指定一个主题而消费者负责订阅主题并进行消费。主题是一个逻辑上的概念它还可以细分为多个分区一个分区只属于单个主题很多时候也会把分区称为主题分区Topic-Partition。同一主题下的不同分区包含的消息是不同的分区在存储层面可以看作一个可追加的日志Log文件消息在被追加到分区日志文件的时候都会分配一个特定的偏移量offset。 offset 是消息在分区中的唯一标识Kafka 通过它来保证消息在分区内的顺序性不过 offset 并不跨越分区也就是说Kafka 保证的是分区有序而不是主题有序。如上图所示主题中有4个分区消息被顺序追加到每个分区日志文件的尾部。Kafka 中的分区可以分布在不同的服务器broker上也就是说一个主题可以横跨多个 broker以此来提供比单个 broker 更强大的性能。每一条消息被发送到 broker 之前会根据分区规则选择存储到哪个具体的分区。如果分区规则设定得合理所有的消息都可以均匀地分配到不同的分区中。如果一个主题只对应一个文件那么这个文件所在的机器I/O将会成为这个主题的性能瓶颈而分区解决了这个问题。在创建主题的时候可以通过指定的参数来设置分区的个数当然也可以在主题创建完成之后去修改分区的数量通过增加分区的数量可以实现水平扩展。 Replica Kafka 为分区引入了多副本Replica机制通过增加副本数量可以提升容灾能力。同一分区的不同副本中保存的是相同的消息在同一时刻副本之间并非完全一样副本之间是“一主多从”的关系其中 leader 副本负责处理读写请求follower 副本只负责与 leader 副本的消息同步。副本处于不同的 broker 中当 leader 副本出现故障时从 follower 副本中重新选举新的 leader 副本对外提供服务。Kafka 通过多副本机制实现了故障的自动转移当 Kafka 集群中某个 broker 失效时仍然能保证服务可用。如上图所示Kafka 集群中有4个 broker某个主题中有3个分区且副本因子即副本个数也为3如此每个分区便有1个 leader 副本和2个 follower 副本。生产者和消费者只与 leader 副本进行交互而 follower 副本只负责消息的同步很多时候 follower 副本中的消息相对 leader 副本而言会有一定的滞后。 Kafka 消费端也具备一定的容灾能力。Consumer 使用拉Pull模式从服务端拉取消息并且保存消费的具体位置当消费者宕机后恢复上线时可以根据之前保存的消费位置重新拉取需要的消息进行消费这样就不会造成消息丢失。 4.2 Kafka 写流程连接 zk 集群从 zk 中拿到对应的 topic 的 partition 信息和 partition 的 leader 的相关信息。注Kafka 2.8.0 已移出对 zookeeper 的依赖。向对应 broker 发消息客户端在发送消息时必须指定消息所属的 Topic 和消息值 Value此外还可以指定消息所属的 Partition 以及消息的 Key。对消息做序列化处理如果消息记录中指定了 Partition则 Partitioner 不做任何事情否则Partitioner 根据消息的 key 得到一个 Partition。这是生产者就知道向哪个 Topic下的哪个 Partition 发送这条消息。消息被添加到相应的 batch 中独立的线程将这些 batch 发送到 Broker 上注意消息不是一条一条发往 broker 的而是会在客户端本地缓存一批数量后在发出去因此客户端是以批-batch 为单位发送消息的即一批当中包含一条或多条消息同样broker 也是以批为单位进行数据存储的后面会讲到。 broker 收到消息会返回一个响应。如果消息成功写入 Kafka则返回成功信息内容包含了 Topic 信息、Patition信息、消息在 Partition 中的 Offset 信息若失败返回一个错误。 4.3 Kafka 读流程连接 zk 集群从 zk 中拿到对应的 topic 的 partition 信息和 partition 的 leader 的相关信息连接到对应的 leader 对应的 broker consumer 通过请求将希望读取的 topic、partition 以及对应的 offset 发送给 leader leader 根据 offset 等信息定位到 segment索引文件和日志文件根据索引文件中的内容定位到日志文件中该偏移量对应的开始位置读取相应长度的数据并返回给 consumer 5 Kafka 运维 Kafka 的命令行工具路径xxx/kafka/bin/下 5.1 Topic 管理指令可以管理 Topic 包括创建、删除、分区扩容、查询 Topic 详细信息、查看 Topic 列表等命令工具kafka-topics.sh # 创建 Topickafka-topics.sh --create --zookeeper localhost:2181 --replication-factor 3 --partitions 3 --topic test # Topic 分区扩容kafka-topics.sh --zookeeper localhost:2181 --alter --topic test --partitions 4 # 删除 Topickafka-topics.sh --delete --zookeeper localhost:2181 localhost:9092 --topic test #查询 Topic 详细信息$ ./kafka-topics.sh --topic event_topic --zookeeper localhost:2181 --describeTopic:event_topic PartitionCount:10 ReplicationFactor:2 Configs:compression.typegzip Topic: event_topic Partition: 0 Leader: 1001 Replicas: 1001,1003 Isr: 1001,1003 Topic: event_topic Partition: 1 Leader: 1003 Replicas: 1003,1002 Isr: 1003,1002 Topic: event_topic Partition: 2 Leader: 1002 Replicas: 1002,1001 Isr: 1002,1001 Topic: event_topic Partition: 3 Leader: 1001 Replicas: 1001,1002 Isr: 1001,1002 Topic: event_topic Partition: 4 Leader: 1003 Replicas: 1003,1001 Isr: 1003,1001 Topic: event_topic Partition: 5 Leader: 1002 Replicas: 1002,1003 Isr: 1002,1003 Topic: event_topic Partition: 6 Leader: 1001 Replicas: 1001,1003 Isr: 1001,1003 Topic: event_topic Partition: 7 Leader: 1003 Replicas: 1003,1002 Isr: 1003,1002 Topic: event_topic Partition: 8 Leader: 1002 Replicas: 1002,1001 Isr: 1002,1001 Topic: event_topic Partition: 9 Leader: 1001 Replicas: 1001,1002 Isr: 1001,1002 #列出全部 Topickafka-topics.sh --bootstrap-server xxxxxx:9092 --list --exclude-internal 5.2 增删节点后的数据均衡增加数据节点后虽然新节点上已经启动了 broker 但 kafka 不会自动均衡数据需要手动执行。命令工具kafka-reassign-partitions.sh 编写配置文件 move-json-file.json 告诉 kafka 你希望哪些 topic 要重新分区 { topics: [{ topic: event_topic }, { topic: profile_topic }, { topic: item_topic } ], version: 1} 执行命令生成分配信息要注意的是此时分区移动尚未开始它只是告诉你当前的分配和建议。保存当前分配以防你想要回滚它。 # 下面 --broker-list 参数对应的是 brokerid$ ./kafka-reassign-partitions.sh --zookeeper localhost:2181 --topics-to-move-json-file ~/mv.json --broker-list 1001,1002 --generateCurrent partition replica assignment #当前分配信息{version:1,partitions:[{topic:event_topic,partition:2,replicas:[1002,1001],log_dirs:[any,any]},{topic:event_topic,partition:8,replicas:[1002,1001],log_dirs:[any,any]},{topic:event_topic,partition:3,replicas:[1001,1002],log_dirs:[any,any]},{topic:event_topic,partition:6,replicas:[1001,1003],log_dirs:[any,any]},{topic:event_topic,partition:9,replicas:[1001,1002],log_dirs:[any,any]},{topic:item_topic,partition:0,replicas:[1001,1003],log_dirs:[any,any]},{topic:event_topic,partition:0,replicas:[1001,1003],log_dirs:[any,any]},{topic:event_topic,partition:5,replicas:[1002,1003],log_dirs:[any,any]},{topic:profile_topic,partition:2,replicas:[1001,1003],log_dirs:[any,any]},{topic:profile_topic,partition:1,replicas:[1002,1001],log_dirs:[any,any]},{topic:event_topic,partition:4,replicas:[1003,1001],log_dirs:[any,any]},{topic:event_topic,partition:1,replicas:[1003,1002],log_dirs:[any,any]},{topic:event_topic,partition:7,replicas:[1003,1002],log_dirs:[any,any]},{topic:profile_topic,partition:0,replicas:[1003,1002],log_dirs:[any,any]}]} Proposed partition reassignment configuration #分配后的信息{version:1,partitions:[{topic:event_topic,partition:7,replicas:[1002,1001],log_dirs:[any,any]},{topic:profile_topic,partition:1,replicas:[1002,1001],log_dirs:[any,any]},{topic:event_topic,partition:1,replicas:[1002,1001],log_dirs:[any,any]},{topic:item_topic,partition:0,replicas:[1001,1002],log_dirs:[any,any]},{topic:event_topic,partition:4,replicas:[1001,1002],log_dirs:[any,any]},{topic:event_topic,partition:9,replicas:[1002,1001],log_dirs:[any,any]},{topic:event_topic,partition:6,replicas:[1001,1002],log_dirs:[any,any]},{topic:event_topic,partition:3,replicas:[1002,1001],log_dirs:[any,any]},{topic:event_topic,partition:8,replicas:[1001,1002],log_dirs:[any,any]},{topic:profile_topic,partition:0,replicas:[1001,1002],log_dirs:[any,any]},{topic:event_topic,partition:0,replicas:[1001,1002],log_dirs:[any,any]},{topic:event_topic,partition:5,replicas:[1002,1001],log_dirs:[any,any]},{topic:profile_topic,partition:2,replicas:[1001,1002],log_dirs:[any,any]},{topic:event_topic,partition:2,replicas:[1001,1002],log_dirs:[any,any]}]} 将上面得到期望的重新分配方式文件保存在一个 json 文件里面reassignment-json-file.json然后通过参数 —execute 执行分配该命令也可以用于以下使用场景给分区增加副本你只需要在第 2 步生成的内容里面在 replicas 参数中加入你想要增加的副本所在 broker id 信息即可这样执行的时候会自动在对应 broker 上创建副本。重新分配分区 5.3 消费情况指令查看group的消费情况 # group: 指定group id名字 ./kafka-consumer-groups.sh --bootstrap-server 127.0.0.1:9092 --describe --group test-group # 示例# TOPIC: group对应的topic# PARTITIONaprtition编号从0开始0-5表示有6个partition# CURRENT-OFFSET此消费着当前已消费的offset# LOG-END-OFFSET生产者在此partition分区上已提交确认的offset# LAG两个offset的差值就是常说的积压。此数值过大为异常。# HOST消费者所在的服务器ip # CLIENT-ID消费者的信息./kafka-consumer-groups.sh --bootstrap-server localhost:9092 --describe --group test-group 删除group ./kafka-consumer-groups.sh --bootstrap-server 127.0.0.1:9092 --delete --group test-group 重新设置消费者位移 Earliest策略把位移调整到当前最早位移处 bin/kafka-consumer-groups.sh --bootstrap-server kafka-host:port --group test-group --reset-offsets --all-topics --to-earliest –execute Latest策略把位移调整到当前最新位移处 bin/kafka-consumer-groups.sh --bootstrap-server kafka-host:port --group test-group --reset-offsets --all-topics --to-latest --executeCurrent策略把位移调整到当前最新提交位移处 bin/kafka-consumer-groups.sh --bootstrap-server kafka-host:port --group test-group --reset-offsets --all-topics --to-current --executeSpecified-Offset策略把位移调整到指定位移处 bin/kafka-consumer-groups.sh --bootstrap-server kafka-host:port --group test-group --reset-offsets --all-topics --to-offset offset --executeShift-By-N策略把位移调整到当前位移N处(N可以是负值) bin/kafka-consumer-groups.sh --bootstrap-server kafka-host:port --group test-group --topic test --reset-offsets --shift-by offset_N --executeDateTime策略把位移调整到大于给定时间的最小位移处时间需要减8bin/kafka-consumer-groups.sh --bootstrap-server kafka-host:port --group test-group --topic test --reset-offsets --to-datetime 2019-06-20T20:00:00.000 --executeDuration策略把位移调整到距离当前时间指定间隔的位移处然后将位移调整到距离当前给定时间间隔的位移处具体格式是 PnDTnHnMnS。以字母 P 开头后面由 4 部分组成即 D、H、M 和 S分别表示天、小时、分钟和秒。 bin/kafka-consumer-groups.sh --bootstrap-server kafka-host:port --group test-group --reset-offsets --by-duration PT0H30M0S --execute 5.4 设置 Topic 过期时间 # 设置 topic 过期时间单位毫秒### 3600000 毫秒 1小时./bin/kafka-configs.sh --zookeeper 127.0.0.1:2181 --alter --entity-name topic-devops-elk-log-hechuan-huanbao --entity-type topics --add-config retention.ms3600000 # 查看 topic 配置./bin/kafka-configs.sh --zookeeper 127.0.0.1:2181 --describe --entity-name topic-devops-elk-log-hechuan-huanbao --entity-type topics 5.5 工具相关使用脚本生产/消费消息 # 连接到test-topic然后通过输入会车生产消息$ bin/kafka-console-producer.sh --broker-list kafka-host:port --topic test-topic --producer-property # --from-beginning: 指定从开始消费消息否则会从最新的地方开始消费消息$ bin/kafka-console-consumer.sh --bootstrap-server kafka-host:port --topic test-topic --group test-group --from-beginning --consumer-property kafka性能测试 # 测试生产者# 向指定主题发送了 1 千万条消息每条消息大小是 1KB# 它会打印出测试生产者的吞吐量 (MB/s)、消息发送延时以及各种分位数下的延时$ bin/kafka-producer-perf-test.sh --topic test-topic --num-records 10000000 --throughput -1 --record-size 1024 --producer-props bootstrap.serverskafka-host:port acks-1 linger.ms2000 compression.typelz4 2175479 records sent, 435095.8 records/sec (424.90 MB/sec), 131.1 ms avg latency, 681.0 ms max latency.4190124 records sent, 838024.8 records/sec (818.38 MB/sec), 4.4 ms avg latency, 73.0 ms max latency.10000000 records sent, 737463.126844 records/sec (720.18 MB/sec), 31.81 ms avg latency, 681.00 ms max latency, 4 ms 50th, 126 ms 95th, 604 ms 99th, 672 ms 99.9th. # 测试消费者性能 $ bin/kafka-consumer-perf-test.sh --broker-list kafka-host:port --messages 10000000 --topic test-topicstart.time, end.time, data.consumed.in.MB, MB.sec, data.consumed.in.nMsg, nMsg.sec, rebalance.time.ms, fetch.time.ms, fetch.MB.sec, fetch.nMsg.sec2019-06-26 15:24:18:138, 2019-06-26 15:24:23:805, 9765.6202, 1723.2434, 10000000, 1764602.0822, 16, 5651, 1728.1225, 1769598.3012 6 Kafka 常用性能调优 6.1 磁盘目录优化 kafka 读写的单位是 partition因此将一个 topic 拆分为多个 partition 可以提高吞吐量。但是这里有个前提就是不同 partition 需要位于不同的磁盘可以在同一个机器。如果多个 partition 位于同一个磁盘那么意味着有多个进程同时对一个磁盘的多个文件进行读写使得操作系统会对磁盘读写进行频繁调度也就是破坏了磁盘读写的连续性。 6.2 JVM参数配置推荐使用最新的 G1 来代替 CMS 作为垃圾回收器。推荐 Java 使用的最低版本为 JDK 1.7u51。 G1相比较于CMS的优势 G1 是一种适用于服务器端的垃圾回收器很好的平衡了吞吐量和响应能力对于内存的划分方法不同Eden, Survivor, Old 区域不再固定使用内存会更高效。 G1 通过对内存进行 Region 的划分有效避免了内存碎片问题。 G1 可以指定GC时可用于暂停线程的时间不保证严格遵守。而 CMS 并不提供可控选项。 CMS 只有在 FullGC 之后会重新合并压缩内存而G1把回收和合并集合在一起。 CMS 只能使用在 Old 区在清理 Young 时一般是配合使用 ParNew而 G1 可以统一两类分区的回收算法。 G1的适用场景 JVM占用内存较大(At least 4G) 应用本身频繁申请、释放内存进而产生大量内存碎片时。对于GC时间较为敏感的应用。目前我们使用的 JVM 参数 6.3 日志数据刷盘策略为了大幅度提高 producer 写入吞吐量需要定期批量写文件。有 2 个参数可配置 log.flush.interval.messages 100000 每当 producer 写入 100000 条数据时就把数据刷到磁盘 log.flush.interval.ms1000 每隔 1 秒就刷一次盘 6.4 日志保留时间当 kafka server 的被写入海量消息后会生成很多数据文件且占用大量磁盘空间如果不及时清理可能导致磁盘空间不够用kafka 默认是保留7天。参数log.retention.hours 168

查看全文

http://www.zqtcl.cn/news/511591/