python爬虫url去重问题

就是如何快速比对出爬虫已经爬过的网站,从大量的url中,使爬虫爬的站是惟一的,不会出现重复爬一个站?

用dict保存URL。然后用in来判断是否存在

第一种方法你可以在保存到数据库的时候,,创建表的时候链接加上unique,那么相同的链接就不会重复加了。第二种方法,可以用集合去重,,就是先把网址的列表转成set,然后再list转回来。。就会自动过滤掉重复网址