利用MD5进行url去重是怎么实现的,有人做过这方面的工作吗?

我在整理爬虫方面的知识,发现有一个比较棘手的问题,有人说采用这个办法能取得相对来说更好的效果,想请教下各位大神

就是对URL进行MD5计算,然后保存到一个set等中,这样下一个URL来的时候,计算一下MD5,然后看是否在set中,如果在就证明已经爬过这个URL了,就不需要再次爬取

恩,楼上正解,set集合排重

MD5类似一个hash操作,不同url字符串得到的MD5值一般不同,如果两个url得到的MD5相同,则认为是相同的字符串

爬虫去重可以用map做啊