如何使用强化学习求解仅含数学表达式的动态规划问题？

图片说明

看过很多强化学习的代码，但都是应用于具体情境的，对于这种纯数学形式的题目，应该如何套用强化学习已有的代码框架进行求解呢？

最近在看一个求解KS方程的DDPG算法，但似乎并不适用于这个题目...
请各位大神指教~可给予报酬

https://www.sohu.com/a/198049198_465975