目前初步的想法是用selenium 来爬取,但是规则不一样可能要写30多个规则,想到一个用数据库连接的方式来节省时间,但是我不会用qaq!
而且有些网站使用了iframe的嵌套反爬,是不是不能使用一个爬虫解决?
有大神出来答疑解惑吗 ,球球了呜呜。
可以购买30个计算机同时抓取
30个站不写30个规则还能怎样
开多线程,用代理IP池
看看是不是有规律,有就用scrapy,没有,就多线程