关于《Episodic Curiosity Through Reachability》的几点疑问

对于强化学习sparse reward相关的论文《Episodic Curiosity Through Reachability》，有几个疑问，还麻烦帮忙解答一下，谢谢了。

做逻辑回归部分目标值是从哪里来的呢？是agent先与环境互动来收集经验吗？
步长k是怎么定的呢？
如果目前状态与memory中的状态步长<k时，还会被记忆在memory buffer中吗？
R network包含Episodic memery module 和Reward bonus estimation module 吗？
万分感激！