大家好,有一个问题想请教一下大家。
想要实现的功能是: 使用爬虫对不同时间一个网页上的文件名称爬取,并把新增的文件名筛选出来。
我的问题在于,列表是每次随着爬虫更新的,如何保留一个旧的爬取的列表,来与新的列表进行比较
谢谢大家
定义多个列表,有的保存老的,有的保存新的,或者保存到数据库,通过查询比对
列表之间的比对,可以将列表转换成集合,然后用差集找出不同,有新内容就添加进旧列表。
old=[3,4,5]
new=[6,5,8]
dif=set(new)-set(old)
old.extend(dif)
print(old)
伪代码
旧列表 = []
新列表 = []
循环:
旧列表 = 新列表
新列表 = []
爬取数据添加到新列表
新列表与旧列表对比筛选
您好,我是有问必答小助手,你的问题已经有小伙伴为您解答了问题,您看下是否解决了您的问题,可以追评进行沟通哦~
如果有您比较满意的答案 / 帮您提供解决思路的答案,可以点击【采纳】按钮,给回答的小伙伴一些鼓励哦~~
ps:问答VIP仅需29元,即可享受5次/月 有问必答服务,了解详情>>>https://vip.csdn.net/askvip?utm_source=1146287632
非常感谢您使用有问必答服务,为了后续更快速的帮您解决问题,现诚邀您参与有问必答体验反馈。您的建议将会运用到我们的产品优化中,希望能得到您的支持与协助!
速戳参与调研>>>https://t.csdnimg.cn/Kf0y