训练RNN预测视频帧的数据

如图是一个经过处理后的设备放电点的视频帧，里面有几个斑点，这些斑点可能是真是的放电点，也可能是虚假的，这需要连续的视频帧才能判定出来。如果连续几帧这个斑点位置都存在斑点，那么可以认为这是个真实的放电点，否则不是，了。我们可以先用传统办法来判定部分数据的真假，作为数据集。
现在拟训练一个RNN，输入连续三张视频帧，输出斑点的真假。
视频帧的输入信息是各个斑点的boundingbox的xywh。
请问这样一个问题，应该如何设计数据集呢？以及rnn的输出？

不知道你这个问题是否已经解决, 如果还没有解决的话:

帮你找了个相似的问题, 你可以看下: https://ask.csdn.net/questions/7722867

如果你已经解决了该问题, 非常希望你能够分享一下解决方案, 写成博客, 将相关链接放在评论区, 以帮助更多的人 ^-^