按道理,模型有关是指转移概率和即时奖励都是已知的。然而这里,SARSA/Q-Learning 显然是可以计算出 r 和 s' 的,那为什么我们还说他是模型未知的,既然未知,我们怎么能算出 r 和 s' 呢?