最近在学习网络爬虫,想要爬取某个社区网站文章,可是在研究了很多的html网页的时候,发现貌似他们的网页结构都类似。就像下图中数字1,2,3所在区域,我用不同的颜色表示不同的区域。如下图:
我的问题是不知道这几个区域所表示的含义,比如说黄色部分,数字1表示的,这个区域用一个
赐教。
数字1和3区域都是div容器
div容器中可以放任何内容,一般上边的是页面顶部的横幅图片和导航栏。下边的是页面主体正文内容。
数字2区域是<script></script>
标签,用于引入js代码、比如jquery库