1.假设跨模态大模型训练了OCR识别身份证和户口本,但是它没训练过识别护照,那它能通过学习识别身份证和户口本后识别护照么?
2.神经网络也好,大模型也好,它们的隐藏层数量和参数量级是怎么确认是多少的?就像盖房子,我决定一开始可能盖个100平的,这100平决定了需要多深的地基、决定了多高的楼层,那么类比来看这个隐藏层和参数量级在一开始是怎么确定多少的、由什么限定的
(1)看你怎么理解识别,如果说的是文字识别,那没问题
如果是说的真假识别,比较难
好比你从没有见过护照,你拿到也能认识,但是你肯定不能确定它的真假,因为没见过。
(2)模型本身是人定义的,多少层,多少神经元,怎么连接,这个都是训练程序里设计的。
1)我们的模型在通过大量数据模仿训练里,可以识别部分特征,因为身份证、户口本和护照之间跨存在一些共性,比如共有的文字、图像特征,但你要说完全识别出来是做不到的,不同国家的护照还不一样呢,你如果从未打算利用多样本来不断迭代训练,这个想法本身就不成熟。
2)我同意three的想法,不仅隐藏层和参数量级在一开始就是人为限定来设计的,深层网络在训练里还会遇到梯度消失、过拟合这些问题,隐藏层数量和参数量级的确定还是需要调优来进行。
不清楚呢,期待答案
识别护照需要额外的训练数据和适当的调整模型结构。
参考gpt:
结合自己分析给你如下建议:
1.根据我搜索的结果,OCR识别身份证和户口本的技术已经比较成熟,可以提供结构化的识别服务,包括姓名、性别、民族、出生日期、住址、身份证号、签发机关、有效期限等字段。但是,OCR识别护照的技术还有一些局限性,比如只能识别符合Doc 9303 机读旅行证件标准的国内、国外200多个国家的护照,而且只能提供部分字段的识别输出,比如国家码、护照号、姓名、姓名拼音、性别、出生地点、出生日期、签发地点、签发日期、有效期、签发机关等345。所以,如果跨模态大模型只训练了OCR识别身份证和户口本,那么它可能无法通过学习识别身份证和户口本后识别护照,因为护照的版式和字段与身份证和户口本有很大的差异。
2.神经网络和大模型的隐藏层数量和参数量级是由多种因素决定的,比如数据集的规模和复杂度、任务的难度和目标、计算资源的限制等。一般来说,没有固定的规则或公式来确定隐藏层和参数量级,而是需要根据实际情况进行调整和优化。有些经验法则可以参考,比如:
隐藏层数量应该在1到10之间,过多或过少都会影响模型的性能。
隐藏层神经元数量应该在输入层神经元数量和输出层神经元数量之间。
参数量级应该与数据集大小相匹配,避免过拟合或欠拟合。
参数量级应该考虑计算资源的消耗和效率。