spark读取kafka数据，缓存当天数据

spark stream从kafka读取数据，10秒间隔；需要缓存当天数据用于业务分析。
思路1：定义static rdd用于union每次接收到的rdd；用window窗口（窗口长1小时，滑动步长20分钟）；union之后checkpoint。
但是发现在利用static rdd做业务分析的时候，应该是因为磁盘io，所以执行时间太长。
思路2：一样定义static rdd， context调用remember（24小时）保留数据24小时（数据缓存在哪里了，暂时不清楚，汗）；但是在业务分析时，发现static rdd的count结果为0

求教怎么缓存一段时间的rdd
数据放executor内存或分布放个worker都可以，一天的数据量大概在100g，过滤后再5g，机器内存256g

https://blog.csdn.net/liguangzhu620/article/details/78917558

spark读取kafka数据， 缓存当天数据

spark读取kafka数据，缓存当天数据