本次使用scrapy框架爬取一个小网站, 挺担心这个网站的!
first_url: https://www.52doutu.cn/post/1/
从中点开任意一个查看全部,网址规模都是一样的:https://www.52doutu.cn/p/99/也就是p后面的数值不一样, 这里可以匹配过去。后面代码细讲:之后打开这样的页面:
具体网站具体分析,不是所有网站都是傻逼网站那么简单爬取。