反馈信息丢失情况 有没有更好的pomdp模型或优化算法?

整个系统是:在一个无线单源多播网络中,源节点传输数据包给目的节点后需要重传,但是只能观测到目的节点的部分状态 ,需要一个方法来估计目的节点真实接受状态 根据这个求得的置信状态来重传目的节点需要的数据包