爬取数据一直增加的页面

各位大侠，小弟有个爬虫业务实现的问题。我现在要爬取一个网站，假设是新闻网站吧，网站底部有很多页码：1-999，但是这个网站它的新闻数据是一直在增加的，几分钟就会增加一条数据，旧的数据会往下移，甚至移动到后面的页码中。请问我应该怎么实现我的爬虫？

提取url做去重吗？请各位不吝赐教！

把所爬具体文章url存入文本，或仅存最后次url。下一次开始时先判断页面是否包含最后次url，即有存在列表中哪个位置。

爬出来的数据肯定有个ID，你根据这个去查来去重，但是这么做效率太低