图像检测 判断物体间关系

想要问问各位如何实现这样的一个图像检测目标
就是同时检测出行人和手提袋。然后如何能够将每个行人和该行人携带的手提袋一一对应起来并输出呢?(RGB-D 数据)
现阶段可以通过算法估计手提袋与行人的位置关系来做出判断。但有没有更简便的方法呢?最好通过深度学习工具对行人和手提袋的关系直接训练模型。在后续的检测过程中直接通过模型做出判断。
希望给与回答。最好有相关的论文和代码。

如何认为这种方案不可行的话也请告知

你好,我是有问必答小助手,非常抱歉,本次您提出的有问必答问题,技术专家团超时未为您做出解答


本次提问扣除的有问必答次数,已经为您补发到账户,我们后续会持续优化,扩大我们的服务范围,为您带来更好地服务。