采用策略迭代求解lqr。找下错。

用的RLS来策略评估。theta是H矩阵的变形。delta1是t时刻的状态和输入。delta2是t+1时刻的状态和输入。delta'*theta是应该等于一步代价ct的。
也是通过RLS来估计theta，再来进行策略改进的过程。
但是到第二轮迭代以后（即K值改进后），评估的H矩阵就不怎么变了。即使在RLS中有新息，估计的theta值也不变。（theta是H矩阵的变形）甚至新息会增大。图一是代码。图二是第二轮迭代是新息增大。

RLS中是否加入了遗忘因子呢？是否因为信息报好了，加入的新息相对于累计的新息比重太小？

现在出现什么样得问题