强化学习自定义gym环境状态空间的表示？

   我最近在用强化学习DQN算法解非线性整数规划问题。
   state是一个三维的整数数组[a,b,N]，a取值[0,4] , b取值[0,2]。但是其中N的取值范围取决于a，N=[1, math.floor(2000/3/a)]，也就是N取值范围有5种，所以状态空间无法用 Box() 直接表示，不知道大佬能否指点一下，如何表示状态空间呀？

建议你看下这篇博客Gym强化学习自定义环境的搭建

建议楼主可以考虑用DQN来解决这问题，在深度学习中，这无非就是增大目标向量的空间维度，适配损失函数就好了，用tensorflow或者paddlepaddle都很容易能实现。