python爬虫有关进行html页面分析的问题

最近在学习网络爬虫,想要爬取某个社区网站文章,可是在研究了很多的html网页的时候,发现貌似他们的网页结构都类似。就像下图中数字1,2,3所在区域,我用不同的颜色表示不同的区域。如下图:

img

我的问题是不知道这几个区域所表示的含义,比如说黄色部分,数字1表示的,这个区域用一个

容器包裹,好像所有的网页内容都在这里面,而且里面的结构我看很多的网站都相似,包括header,main,footer,这三个部分。
谁能够给我解释下为什么是这样的结构以及他们的含义,内部通常有什么?
还有剩下两个区域都是代表什么呢?

赐教。

数字1和3区域都是div容器
div容器中可以放任何内容,一般上边的是页面顶部的横幅图片和导航栏。下边的是页面主体正文内容。
数字2区域是<script></script>标签,用于引入js代码、比如jquery库