使用水槽替代原有的文士服务 - 行业资讯 - 肥雀云

以前很多业务都是用抄写员做日志收集的支撑的,后来fb停止了对文士的开发支持。而且抄写员在机器上编译一次的代价太大了,各种坑,正好后来水槽1.3.0从版本开始加入了对文士的支持。就可以把原来抄写员上面接入的数据转用水槽收集了。虽然我很喜欢抄写员,但是失去了官方支持毕竟还是很闹心的。

agent.channels=c1 　　agent.channels.c1.capacity=20000 　　agent.channels.c1.transactionCapacity=10000 　　agent.channels.c1.type=记忆　　agent.sinks=k1 　　agent.sinks.k1.channel c1=agent.sinks.k1.hdfs.batchSize=8000 　　agent.sinks.k1.hdfs.filePrefix=日志　　agent.sinks.k1.hdfs.fileType=DataStream数据　　agent.sinks.k1.hdfs.path=hdfs://NNHA/数据/水槽/Y %{类别}/% % m % d 　　agent.sinks.k1.hdfs.rollCount=0 　　agent.sinks.k1.hdfs.rollInterval=86400 　　agent.sinks.k1.hdfs.round=true 　　agent.sinks.k1.hdfs.roundUnit=分钟　　agent.sinks.k1.hdfs.roundValue=https://www.yisu.com/zixun/1 　　agent.sinks.k1.hdfs.serializer.appendNewline=false 　　agent.sinks.k1.hdfs.useLocalTimeStamp=true 　　agent.sinks.k1.hdfs.writeFormat=文本　　agent.sinks.k1.type=hdfs 　　agent.sources=r1 　　agent.sources.r1.channels c1=agent.sources.r1.host=0.0.0.0 　　agent.sources.r1.port=1463 　　agent.sources.r1.type=org.apache.flume.source.scribe.ScribeSource 　　agent.sources.r1.workerThreads=5

主要是serializer.appendNewline设置为false,否则会每条自动添加一个回车上去,其他也没什么太多好解释的,用过水槽的自然秒懂,hdfs。路径里面,%{类别}就是意味着原来抄写员里面的类别。

1.6水槽的新特性里面是加入了对卡夫卡的源和汇的支持,以及对数据内容的正则过滤传递,这点很有用,貌似下个月或者下下个月会有本关于水槽的新书上市。