卷积神经网络是如何对人类对图像的认知进行拟合的?
谢谢~~~
你这个问题太大了,完整解释有一本书的篇幅了。
简单概括说说吧。采纳本回答(点本回答左上角的采纳框)后你可以追问。
cnn主要的思路是,图片相当于一个二维的矩阵,它的每个像素是神经网络的一个输入维度,但是,这些维度并非独立存在的,而是按照几何组织规则起来的。
那些在坐标上有一定相对关系的点,它们被通过卷积核联系在一起,而简化了空间上距离很远的点的关系。从而降低了运算量。
而卷积核相当于一个共享参数的连接层,它用来匹配某个局部范围的特征,卷积层可以实现对图像倾斜、缩放等情况的识别匹配。
而把多个卷积层连起来,那么前面的层可以学习到简单的几何特征,比如线条、点、面。
中间的可以学到稍微复杂的几何特征,比如一个圆形、一个矩形,某几个几何或者颜色的叠加。
而最终,可以识别出物体,因为物体就是这些特征的叠加组合。
在cnn里,还使用了pooling层,因为高级特征并不需要那么像素点就能识别出来(识别出图是一架飞机,只要一个缩略图就够了,但是要识别出飞机上的窗户,就要更大的图,对吧),所以用pooling其实就是不断简化维度,得到缩略特征的过程。