YOLOV3检测人脸和躯干数据集的精度问题

使用YOLOV3训练物体检测模型时，遇到一点疑问：假如我想训练人脸和躯体的模型，但是数据集来自两个不同的集合，一个只有标注人脸，一个只有标注躯干（假如分别训练两种模型的话，对于人脸和躯干的检测率都很高），这样人脸数据集没有标注出躯干，躯干数据集没有标注出人脸。如果这样的两个数据集整合在一起训练人脸和躯干检测的话，对最终结果会有影响么，还会达到分别训练的那样的精度么？

一起训练是指把人脸和躯干作为一个整体来识别吗？如果是这样，这个目标和你之前的那两个是独立的关系，可能高可能低。

我来回答你吧，我就是做这个的。这个精度问题，至少跟三个方面的因素有关：数据集、神经网络、训练程度。

单独标注的人脸、单独标注的躯干、一起标注的人脸和躯干，就是三种不同的数据集。通常情况下，类别数越少，越容易达到高精度。也就是说，单纯训练人脸模型，或者单纯训练躯干模型，它们都能达到较高的精度，训练同时识别人脸和躯干的模型，一般比较难达到较高的精度。总而言之，在相同的神经网络前提下，粗分类要比精细分类的精度更高。当然，这个不是绝对的。还有一个非常重要的因素就是训练程度，训练程度不够，精度也不会高。有些数据集，训练到一定的水平，损失函数就很难下去了。最终是个什么样的表现，其实要自己实验过才知道。像我们给客户评估，都不是通过什么理论上怎么怎么样的给出建议，而是基于大量的经验数据，只要一见某种类型的数据集，我们就知道该用什么模型比较好。