建设银行网站怎么交学费,辽宁省工程新希望官网,投放广告,网站域名ip查询一、目的
作为日志采集工具Flume#xff0c;它在项目中最常见的就是采集Kafka中的数据然后写入HDFS或者HBase中#xff0c;这里就是用flume采集Kafka的数据导入HDFS中
二、各工具版本
#xff08;一#xff09;Kafka
kafka_2.13-3.0.0.tgz
#xff08;二#xff09;…一、目的
作为日志采集工具Flume它在项目中最常见的就是采集Kafka中的数据然后写入HDFS或者HBase中这里就是用flume采集Kafka的数据导入HDFS中
二、各工具版本
一Kafka
kafka_2.13-3.0.0.tgz
二HadoopHDFS
hadoop-3.1.3.tar.gz
三Flume
apache-flume-1.9.0-bin.tar.gz
三、实施步骤
一到flume的conf的目录下
# cd /home/hurys/dc_env/flume190/conf 二创建配置文件evaluation.properties
# vi evaluation.properties
### Name agent, source, channels and sink alias a1.sources s1 a1.channels c1 a1.sinks k1
### define kafka source a1.sources.s1.type org.apache.flume.source.kafka.KafkaSource
# Maximum number of messages written to Channel in one batch a1.sources.s1.batchSize 5000
# Maximum time (in ms) before a batch will be written to Channel The batch will be written whenever the first of size and time will be reached. a1.sources.s1.batchDurationMillis 2000
# set kafka broker address a1.sources.s1.kafka.bootstrap.servers 192.168.0.27:9092
# set kafka consumer group Id and offset consume # 官网推荐1.9.0版本只设置了topic但测试后不能正常消费需要添加消费组id自己写一个并定义偏移量消费方式 a1.sources.s1.kafka.consumer.group.id evaluation_group a1.sources.s1.kafka.consumer.auto.offset.reset earliest
# set kafka topic a1.sources.s1.kafka.topics topic_b_evaluation ### defind hdfs sink a1.sinks.k1.type hdfs # set store hdfs path a1.sinks.k1.hdfs.path hdfs://hurys22:8020/rtp/evaluation/evaluation_%Y-%m-%d # set file size to trigger roll a1.sinks.k1.hdfs.rollSize 0 a1.sinks.k1.hdfs.rollCount 0 a1.sinks.k1.hdfs.rollInterval 3600 a1.sinks.k1.hdfs.threadsPoolSize 30 a1.sinks.k1.hdfs.fileTypeDataStream a1.sinks.k1.hdfs.writeFormatText ### define channel from kafka source to hdfs sink # memoryChannel快速但是当设备断电数据会丢失 # FileChannel速度较慢即使设备断电数据也不会丢失 a1.channels.c1.type file # 这里不单独设置checkpointDir和dataDirs文件位置参考官网不设置会有默认位置 # channel store size a1.channels.c1.capacity 100000 # transaction size a1.channels.c1.transactionCapacity 10000 ### 绑定source、channel和sink a1.sources.s1.channels c1 a1.sinks.k1.channel c1
三配置文件创建好后启动flume服务
# cd /home/hurys/dc_env/flume190/
# ./bin/flume-ng agent -n a1 -f /home/hurys/dc_env/flume190/conf/evaluation.properties 四到HDFS文件里验证一下 HDFS中生成evaluation_2023-09-07 文件夹里面有很多小文件 五注意小文件里的数据是JSON格式即使我设置文件后缀名为csv也没用可能配置文件中的文件类型设置需要优化
a1.sinks.k1.hdfs.writeFormatText 六jps查看Flume的服务
[roothurys22 conf]# jps 16801 ResourceManager4131 Application 18055 AlertServer 16204 DataNode22828 Application 17999 LoggerServer 2543 launcher.jar22224 Application 17393 QuorumPeerMain 16980 NodeManager 17942 WorkerServer 16503 SecondaryNameNode11384 Application32669 Application 17886 MasterServer 10590 Jps 16031 NameNode 18111 ApiApplicationServer 注意Application就是Flume运行的任务
七关闭Flume服务
如果想要关闭Flume服务直接杀死服务就好了
# kill -9 32669 八checkpointDir和dataDirs默认的文件位置
默认的文件位置/root/.flume/file-channel/ 总之Flume这个工具的用法还需进一步研究优化当然kettle也可以所以这个项目目前还是用kettle吧