如何使用强化学习求解仅含数学表达式的动态规划问题?

图片说明

看过很多强化学习的代码,但都是应用于具体情境的,对于这种纯数学形式的题目,应该如何套用强化学习已有的代码框架进行求解呢?

最近在看一个求解KS方程的DDPG算法,但似乎并不适用于这个题目...
请各位大神指教~可给予报酬

https://www.sohu.com/a/198049198_465975