爬取数据一直增加的页面

各位大侠,小弟有个爬虫业务实现的问题。我现在要爬取一个网站,假设是新闻网站吧,网站底部有很多页码:1-999,但是这个网站它的新闻数据是一直在增加的,几分钟就会增加一条数据,旧的数据会往下移,甚至移动到后面的页码中。请问我应该怎么实现我的爬虫?

 

提取url做去重吗?请各位不吝赐教!

把所爬具体文章url存入文本,或仅存最后次url。下一次开始时先判断页面是否包含最后次url,即有存在列表中哪个位置。

爬出来的数据肯定有个ID,你根据这个去查来去重,但是这么做效率太低