爬取的网站类似于BD文库以及B站这一类
1 想知道是找接口爬比较好,还是用selenium爬比较好。
2 大致思路是怎样的,例如是按分类区去爬,还是其他方式。
第一个问题:
爬虫会遇到反爬机制以及很多防护,如果反爬机制可以绕过,用接口爬肯定是更方便,如果反爬机制绕不过去,建议selenium
第二个问题:
网站开发出来肯定是按照一定规律开发的,比如添加一个分类,然后再这个分类添加一个视频,一个内容。
那么爬取方式也是类似的,先爬一个大块,然后接着在大块里找分类里的东西。
思路仅供参考,建议在合法的情况下获取数据~