卷积神经网络的一般结构

卷积神经网络是如何对人类对图像的认知进行拟合的？
谢谢~~~

你这个问题太大了，完整解释有一本书的篇幅了。

简单概括说说吧。采纳本回答（点本回答左上角的采纳框）后你可以追问。

cnn主要的思路是，图片相当于一个二维的矩阵，它的每个像素是神经网络的一个输入维度，但是，这些维度并非独立存在的，而是按照几何组织规则起来的。
那些在坐标上有一定相对关系的点，它们被通过卷积核联系在一起，而简化了空间上距离很远的点的关系。从而降低了运算量。
而卷积核相当于一个共享参数的连接层，它用来匹配某个局部范围的特征，卷积层可以实现对图像倾斜、缩放等情况的识别匹配。
而把多个卷积层连起来，那么前面的层可以学习到简单的几何特征，比如线条、点、面。
中间的可以学到稍微复杂的几何特征，比如一个圆形、一个矩形，某几个几何或者颜色的叠加。
而最终，可以识别出物体，因为物体就是这些特征的叠加组合。
在cnn里，还使用了pooling层，因为高级特征并不需要那么像素点就能识别出来（识别出图是一架飞机，只要一个缩略图就够了，但是要识别出飞机上的窗户，就要更大的图，对吧），所以用pooling其实就是不断简化维度，得到缩略特征的过程。