如何在内存中解析HTML源码？？

我把法院上的老赖名单通过HttpClient获取到了，但是仅仅是整个HTML页面的源码。源码中包含了当事人的一些信息（都是可对外公布的）。我想把这些信息进行汇总，但是又不想把这些HTML源码保存在本地，有什么办法能在内存中解析HTML源码，并将节点中value提取的吗？

用正则表达式式就可以提取。

html字符串，然后加载到一个内存xml对象，再解析各个节点的对应数据取出来。

有HTML解析库，也可以直接利用正则表达式进行字符串分析