知乎最近取消了“按时间排序”“按页码翻页功能”,按时间排序功能已失效,底下不会出现页码数字了,下拉只有无限加载网页,另外收藏评论功能并不会保存阅读进度,针对无限下拉加载内容的网页,如何保存阅读进度?
可以尝试回溯进度,保存上一次提取带的评论数据,如评论者id,评论文本内容,在下一次爬取数据时提供进度依据。或者根据selenium动作链滑动滑块或上滑的时间,下一次爬取时滑动同样时间,不过该方法容易受网速影响进而出错