spark有没有办法反复实时计算给定时间内的值?

比如前端第一次传7.1-7.4,想得出这段时间内的新增用户量,第二次传7.2-7.5号;由于我们这边的输入源是kafka,消费过一次一般就不消费了,像这种需求有办法在spark实时计算吗,输出到传统数据库的话,数据量太大可能又做不到准实时

实时计算使用flink,spark是无状态计算,当然也可以进行实时计算

前端第一次传7.1-7.4,想得出这段时间内的新增用户量,第二次传7.2-7.5号;由于我们这边的输入源是kafka,消费过一次一般就不消费了,像这种需求有办法

答案:编写shell脚本,启动azkaban,进行定时执行脚本,脚本里编写的shell命令就是执行Kafka,这样就会在设定的某个时间自动执行一次,比如每天几点执行,每周那个时间执行,几天后执行一次,等等都可以

如有帮助,请采纳一下,谢谢O(∩_∩)O