做深度学习数据集，水果识别，有必要对照片进行标注吗？

深度学习，做水果照片数据集，怎么制作好的数据集呢？需要对照片进行数据标注吗？vgg16模型防止过拟合大概得多少张照片

你好，利用matlab进行深度学习的时候，数据集可以把同一个label的图片放在同一个文件夹下面，文件夹的名字就是label的名字，比如建立名叫苹果的文件夹，然后把所以属于苹果的照片都放进去，香蕉的放一个文件夹，这样不需要每一张图片都去打标签。
在训练的时候，数据集的导入用 imageDatastore函数就可以，标签来源设置为文件夹名字，具体可以看matlab帮助文档

Datastore for image data - MATLAB Use an ImageDatastore object to manage a collection of image files, where each individual image fits in memory, but the entire collection of images does not necessarily fit. https://www.mathworks.com/help/releases/R2020a/matlab/ref/matlab.io.datastore.imagedatastore.html

imds = imageDatastore('你的所有分类的文件夹所在的那个文件夹名字',...
'IncludeSubfolders',true,'FileExtensions','.tif','LabelSource','foldernames')

vgg16可以处理上千万图片的上千类的分类问题，但是训练储存的权值就高达500Mb，如果你的图片数量太少，需要设置dropout来防止过拟合。事实是，四五千张图片，5个类别的数据集都有人拿来分类，效果也不错，防止过拟合的话，要么设置dropout，要么把神经网络层数减少。

需要标注；labelme可以标注数据，图像10000以上吧。不标注没法训练vgg16

标注还是需要的，不过有两种的标注。如果你的图片只有单一种类，比如一张图片里面只有苹果而不会有橙子，香蕉之类的，那么你可以用文件夹将图片分类好就算标注，类别id就是文件名。
但是如果你一张图片里面有多种类别，那么就得用标注软件标注好才行，也就是常说的打标签，一般用labelimg或者labelme就可以解决。
至于过拟合，这个和数据量关系不是很大（当让需要数据分布广一些的情况下），一般是损失函数的设计和一些特殊的处理，比如dropout，正则化之类的来防止过拟合，而不是数据量多了就可以防止过拟合（当让多了意味着分布比较广，一般来说对于过拟合还是有一定作用的，但是效果不如前面的一些特殊处理来的好）。
至于数据集的数量，一般来说都是看分布，分布越广越好，正常情况下一种水果一百来张也是可以做分类的了，但是效果可能没有一千张来的好就是了