我最近在用强化学习DQN算法解非线性整数规划问题。
state是一个三维的整数数组[a,b,N],a取值[0,4] , b取值[0,2]。但是其中N的取值范围取决于a,N=[1, math.floor(2000/3/a)],也就是N取值范围有5种,所以状态空间无法用 Box() 直接表示,不知道大佬能否指点一下,如何表示状态空间呀?
建议你看下这篇博客Gym强化学习自定义环境的搭建建议楼主可以考虑用DQN来解决这问题,在深度学习中,这无非就是增大目标向量的空间维度,适配损失函数就好了,用tensorflow或者paddlepaddle都很容易能实现。