目标检测怎么训练，理解了输入是图片对应的label标注了之后是怎么获取标注信息的？

图片说明

如图标注了是人，train的时候是如何获取这个框是人以及框的大小的信息的呢？
train中返回的数据形式长，宽，x，y，类别的概率这个是理解的，但是这些信息是怎么从label中得来的？

不知道理解你的问题是否正确。
1. 获取图片内框的信息，应该是通过算法，object detection有selective search，生成若干候选框然后和标记的label去比对，比对也有算法。具体感觉这篇写的挺好的
https://blog.csdn.net/f290131665/article/details/81012556
2.怎么从label得来，自己手动标注的label，画的框框，能得到长宽和x,y。有工具做手工标注的，具体看博客
https://blog.csdn.net/bjjoy2009/article/details/94992514