特征提取网络是如何训练和评估的

已知：我们经常会在预训练模型（resnet、vgg……）的基础上完成图像分类任务，resnet、vgg也被称之为特征提取网络。
问题：

这些特征提取网络是如何被单独训练出来的？
特征提取网络在大量图像数据进行分类训练的中间产物？
人脸特征提取，文本特征提取（bert）等特征提取网路的训练方法和图像特征提取的方法一样么？

例如最开始的imageNet，是由学者提出的深度网络结构，结构上有众多参数，初始化了参数之后，成为了一个经典的特征提取网络，到后来的深度残差网络resnet，这些网络都是一个模板，你可以利用这些模板来做深度学习的任务
中间产物就是不断的修改参数
人脸特征提取是通过图像特征提取，和分类其实换汤不换药，bert是通过向量的，不太一样

望采纳