我在整理爬虫方面的知识,发现有一个比较棘手的问题,有人说采用这个办法能取得相对来说更好的效果,想请教下各位大神
就是对URL进行MD5计算,然后保存到一个set等中,这样下一个URL来的时候,计算一下MD5,然后看是否在set中,如果在就证明已经爬过这个URL了,就不需要再次爬取
恩,楼上正解,set集合排重
MD5类似一个hash操作,不同url字符串得到的MD5值一般不同,如果两个url得到的MD5相同,则认为是相同的字符串
爬虫去重可以用map做啊