关于HtmlUnit爬虫框架的一些疑惑

最近在爬取一个网站数据遇到点困难,还请资深人士帮忙解惑!

   使用的是HtmlUnit框架,爬取的是一个Vue网页,如下图:

img

  运行时报错:
严重: Error during JavaScript execution
======= EXCEPTION START ========
Exception class=[net.sourceforge.htmlunit.corejs.javascript.EvaluatorException]
com.gargoylesoftware.htmlunit.ScriptException: Default values in destructuring declarations are not supported (https://jctz.12309.gov.cn/assets-22-12/js/chunk-vendors-legacy.0dd94fd1.js#14)
 翻译了一下上面的报错:不支持析构函数声明中的默认值

img

结果是为爬取到的xml文件没有body内容如下图:

img

这个网页数据是动态生成的,你只有找到数据渲染api接口。

兄弟们,HTMLUnit 无法抓取 Vue 生成的页面的主要原因是因为 Vue 使用了虚拟 DOM 技术,在渲染页面时会动态生成 HTML 代码。HTMLUnit 在抓取页面时,只能获取到 Vue.js 加载的初始 HTML 代码,无法获取到动态生成的 HTML 代码。因此,HTMLUnit 抓取的页面内容与实际页面不符,导致抓取失败。具体解决方法请看链接:https://www.sohu.com/a/678336760_121660661#:~:text=HTMLUnit%20%E6%97%A0%E6%B3%95%E6%8A%93%E5%8F%96%20Vue%20%E7%94%9F%E6%88%90%E7%9A%84%E9%A1%B5%E9%9D%A2%E7%9A%84%E4%B8%BB%E8%A6%81%E5%8E%9F%E5%9B%A0%E6%98%AF%E5%9B%A0%E4%B8%BA%20Vue%20%E4%BD%BF%E7%94%A8%E4%BA%86%E8%99%9A%E6%8B%9F%20DOM%20%E6%8A%80%E6%9C%AF%EF%BC%8C%E5%9C%A8%E6%B8%B2%E6%9F%93%E9%A1%B5%E9%9D%A2%E6%97%B6%E4%BC%9A%E5%8A%A8%E6%80%81%E7%94%9F%E6%88%90,HTMLUnit%20%E5%9C%A8%E6%8A%93%E5%8F%96%E9%A1%B5%E9%9D%A2%E6%97%B6%EF%BC%8C%E5%8F%AA%E8%83%BD%E8%8E%B7%E5%8F%96%E5%88%B0%20Vue.js%20%E5%8A%A0%E8%BD%BD%E7%9A%84%E5%88%9D%E5%A7%8B%20HTML%20%E4%BB%A3%E7%A0%81%EF%BC%8C%E6%97%A0%E6%B3%95%E8%8E%B7%E5%8F%96%E5%88%B0%E5%8A%A8%E6%80%81%E7%94%9F%E6%88%90%E7%9A%84%20HTML%20%E4%BB%A3%E7%A0%81%E3%80%82