深圳市住房城乡建设局网站首页,aspx网站架设教程,wordpress 外链统计,广州设计公司网站关于这个数据集的一些基本信息就不赘述了#xff0c;参考我之前的博客。DARPA TC-engagement5数据集官方工具可视化 官方给的工具是将解析的数据存到elasticsearch的#xff0c;但是数据集的解压增长率非常恐怖#xff0c;对空间要求很高。因此针对这个问题#xff0c;我对…关于这个数据集的一些基本信息就不赘述了参考我之前的博客。DARPA TC-engagement5数据集官方工具可视化 官方给的工具是将解析的数据存到elasticsearch的但是数据集的解压增长率非常恐怖对空间要求很高。因此针对这个问题我对工具主要进行了两个修改
利用logstash的插件直接将json输出到本地文件删掉了grafana参考engagement3的数据格式重写logstash过滤器,对字段进行了删减和修改剔除不必要字段。
修改之后的工具包放到了我的github-TC_Tool_modified开源不易记得star一下感激不尽
1. 文件树介绍 文件内容theia存放原始数据的文件夹elasticsearch数据库已经不需要了但是logstash以来这个数据库所以还是保留了logs存放json文件的地方logstash日志收集器负责收集解压出来的log4j日志然后输出到本地文件docker-compose.yml镜像的配置文件TCCDMDatum.avsc一个模式文件用于规范化数据格式负责从log到json的转换tc-das-importer-1.0-SNAPSHOT-jar-with-dependencies.jar官方的java包用于解压、读取并参考上述数据规范生成标准格式的数据通过socket发送
2. 可修改配置
2.1 elastic search的内存限制非必要
在docker-compose.yml中存在对于elasticsearch的内存限额如果1G对于你的机器存在负担可以尝试改为512、256等。
2.2 初始日志输出地址
我们可以通过命令java -Dlog4j.debugtrue -cp .:tc-das-importer-1.0-SNAPSHOT-jar-with-dependencies.jar main.java.com.bbn.tc.DASImporter [原属数据路径] [模式文件路径] [输出IP] [输出端口] -v启动对于原始日志的解压和解析启动前确保已有JAVA环境且logstash已成功启动。如果你采用C/S模式这里的IP和端口可以修改为需要的地址。
java -Dlog4j.debugtrue -cp .:tc-das-importer-1.0-SNAPSHOT-jar-with-dependencies.jar main.java.com.bbn.tc.DASImporter ./theia/ ./TCCDMDatum.avsc 127.0.0.1 4712 -v2.3 初始日志接收地址
logstash负责接收Java包发送来的日志进行处理和输出到本地文件可修改的的东西主要为4个 docker-compose.yml中挂载的本地路径。 logstash/pipline/logstash.conf中的监听端口。如果有修改发送地址此处也应该修改为对应的端口 logstash/pipline/logstash.conf中的过滤器。如果有额外需求可以通过修改过滤器对字段进行调整
filter {json {source message}mutate {//移除不必要字段remove_field[message,timestamp,file,version,path,thread,host,method,priority,logger_name,class]}//转换时间格式mutate {convert {[datum][com.bbn.tc.schema.avro.cdm20.Event][timestampNanos] string}}mutate {gsub [[datum][com.bbn.tc.schema.avro.cdm20.Event][timestampNanos], \d{6}$, ]}date {match [[datum][com.bbn.tc.schema.avro.cdm20.Event][timestampNanos], UNIX_MS]timezone America/New_Yorklocale en target timestamp}
}logstash/pipline/logstash.conf中的输出文件的命名规则。为了避免单个文件过大这里采用以小时为单位的时间格式命名。注释掉的输出方式为控制台输出可以打开用以观察是否正常接收到数据正式转换时再注释掉。