做深度学习数据集,水果识别,有必要对照片进行标注吗?

深度学习,做水果照片数据集,怎么制作好的数据集呢?需要对照片进行数据标注吗?vgg16模型防止过拟合大概得多少张照片

你好,利用matlab进行深度学习的时候,数据集可以把同一个label的图片放在同一个文件夹下面,文件夹的名字就是label的名字,比如建立名叫苹果的文件夹,然后把所以属于苹果的照片都放进去,香蕉的放一个文件夹,这样不需要每一张图片都去打标签。
在训练的时候,数据集的导入用 imageDatastore函数就可以,标签来源设置为文件夹名字,具体可以看matlab帮助文档

imds = imageDatastore('你的所有分类的文件夹所在的那个文件夹名字',...
'IncludeSubfolders',true,'FileExtensions','.tif','LabelSource','foldernames')

vgg16可以处理上千万图片的上千类的分类问题,但是训练储存的权值就高达500Mb,如果你的图片数量太少,需要设置dropout来防止过拟合。事实是,四五千张图片,5个类别的数据集都有人拿来分类,效果也不错,防止过拟合的话,要么设置dropout,要么把神经网络层数减少。

需要标注;labelme可以标注数据,图像10000以上吧。不标注没法训练vgg16

标注还是需要的,不过有两种的标注。如果你的图片只有单一种类,比如一张图片里面只有苹果而不会有橙子,香蕉之类的,那么你可以用文件夹将图片分类好就算标注,类别id就是文件名。
但是如果你一张图片里面有多种类别,那么就得用标注软件标注好才行,也就是常说的打标签,一般用labelimg或者labelme就可以解决。
至于过拟合,这个和数据量关系不是很大(当让需要数据分布广一些的情况下),一般是损失函数的设计和一些特殊的处理,比如dropout,正则化之类的来防止过拟合,而不是数据量多了就可以防止过拟合(当让多了意味着分布比较广,一般来说对于过拟合还是有一定作用的,但是效果不如前面的一些特殊处理来的好)。
至于数据集的数量,一般来说都是看分布,分布越广越好,正常情况下一种水果一百来张也是可以做分类的了,但是效果可能没有一千张来的好就是了