比如前端第一次传7.1-7.4,想得出这段时间内的新增用户量,第二次传7.2-7.5号;由于我们这边的输入源是kafka,消费过一次一般就不消费了,像这种需求有办法在spark实时计算吗,输出到传统数据库的话,数据量太大可能又做不到准实时
实时计算使用flink,spark是无状态计算,当然也可以进行实时计算
前端第一次传7.1-7.4,想得出这段时间内的新增用户量,第二次传7.2-7.5号;由于我们这边的输入源是kafka,消费过一次一般就不消费了,像这种需求有办法
答案:编写shell脚本,启动azkaban,进行定时执行脚本,脚本里编写的shell命令就是执行Kafka,这样就会在设定的某个时间自动执行一次,比如每天几点执行,每周那个时间执行,几天后执行一次,等等都可以
如有帮助,请采纳一下,谢谢O(∩_∩)O