我把法院上的老赖名单通过HttpClient获取到了,但是仅仅是整个HTML页面的源码。源码中包含了当事人的一些信息(都是可对外公布的)。我想把这些信息进行汇总,但是又不想把这些HTML源码保存在本地,有什么办法能在内存中解析HTML源码,并将节点中value提取的吗?
用正则表达式式就可以提取。
html字符串,然后加载到一个内存xml对象,再解析各个节点的对应数据取出来。
有HTML解析库,也可以直接利用正则表达式进行字符串分析