python 如何爬去一整本小说,目前可以通过xpath爬取小说一章的内容,如何爬去多个章节。
目前分析得出:
第一章的内容xxx/898989/789.html
第二章的内容xxx/898989/900.html
第三章的内容xxx/898989/988.html
很变态,从789,900,到988,没有什么规律,跪求大师点拨,谢谢。如何一次搞定爬去多章。
网页上总有下一章、上一章、回目录这些链接吧,先在页面上得到这里的链接,然后再爬对应的页面。
数字不连续很正常啊,比如全站所有的文章都统一编号,那么在这个作者传某一章的间隙,有另一个作者传另一本书的某一章,那么就这个小说来说,id就不连续了。
再比如,网站可能删除了一些文章,也会造成id跳跃。所以这个不可能去找规律,也没有规律可以找。
数字不连续很正常啊,比如全站所有的文章都统一编号,那么在这个作者传某一章的间隙,有另一个作者传另一本书的某一章,那么就这个小说来说,id就不连续了。
从每章的页面里肯定有下一页的链接,每次访问这个就行。
或者直接从目录的页面爬取所有章节链接,逐个访问爬取。
有些网站有防爬设置,我建议可以爬一章 或几章 等一会等待一会 再访问,这样比较稳定,我个人就是这么爬取的。
1.先爬取目录所有章节url地址
2.再根据爬取到的章节url地址按顺序爬取具体内容
每一页应该都有上一章或者下一章的标签,根据每页下一章的标签取得URL 连续爬取,直到没有为止,爬虫最好限定间隔(通常2秒以上好点)
可以参考这个https://blog.csdn.net/c406495762/article/details/71158264
先爬取所有链接,再抓取每个链接下的内容,再匹配自己所需要的部分
卧槽我的答案怎么被删了,就是读第一章的地址存内容然后获取下一章的地址存内容然后继续获取下一章的地址直到没有下一章,你只需要代码里写好第一章的地址