网页采集较慢,怎样提高效率

采集网页:https://www.taoguba.com.cn/index?pageNo=1&blockID=0&flag=1&pageNum=27568

采集每一页帖子列表花费时间较长,是否有什么办法可以提高采集效率。
例如该网站是否网址可以提供数据的json,这样直接采集json会快很多。

请帮忙抓包看看,是否有好方法减小采集传输数据量,提高采集效率。

看一下瓶颈在哪里,是不是在网络延迟还是在网络上,还是在cpu上

如果是网络延迟,可以多线程/多进程,你不是pageNum=27568么
可以一个线程抓0 10 20 30 ... 27560
一个线程抓 1 11 21 31 ... 27561
...
一共10个线程。

如果网络带宽用满了,可以租用一些挂机宝/云服务器。taobao上有卖的,windows系统,1块钱1天。多买一些,同时抓

你这个采集是爬取帖子内容吗?
建议你先读取帖子列表URL,然后访问URL将目标网页下载到本地,
然后解析XPAth解析本地帖子内容,
请求URL网页可以用webClient,
速度很快,解析可以用多线程再次加速,