最近负责一个爬虫,爬取一号店,国美,京东,苏宁,天猫,爬取手机相关信息,但是这些网站规则总是改,代码比较老,过不了几天,写的规则就不能用了,有没有通用的代码,爬取数据?
没有通用的规则,但是可以把规则写成脚本或者配置文件,主程序就不用变了。
实际上有这种通用的抓取程序,你要做的就是定义规则,比如火车头、按键精灵之类的。
没有通用规则,都是安装页面规则写正则的
使用python scrapy
爬虫就是根据规则去解析数据的,怎么会存在统一的规则呢?
这个需要多变几次找到结构规律。