用的RLS来策略评估。theta是H矩阵的变形。delta1是t时刻的状态和输入。delta2是t+1时刻的状态和输入。delta'*theta是应该等于一步代价ct的。
也是通过RLS来估计theta,再来进行策略改进的过程。
但是到第二轮迭代以后(即K值改进后),评估的H矩阵就不怎么变了。即使在RLS中有新息,估计的theta值也不变。(theta是H矩阵的变形)甚至新息会增大。图一是代码。图二是第二轮迭代是新息增大。
RLS中是否加入了遗忘因子呢?是否因为信息报好了,加入的新息相对于累计的新息比重太小?
现在出现什么样得问题