<td width="40%" class="td1">发明名称:</td>
<td width="60%"><span name="record_zlx:zhuanlimc" title="pos||">
<span id="bfdf53c5dacb4879bf57accbf9b0f739" class="nlkfqirnlfjerldfgzxcyiuro">检测装置</span>
<span id="ba6b32cd86c84d8d9450da43dc178a64" class="nlkfqirnlfjerldfgzxcyiuro">一种气体</span>
<span id="b7220fbcc44e41f5974a320a2dfda9bc" class="nlkfqirnlfjerldfgzxcyiuro">一种气体</span>
<span id="71806fa951fa4247b8aa2089ed7cc513" class="nlkfqirnlfjerldfgzxcyiuro">检测装置</span>
<span id="c83b17ce47054961a3b73d6a176f687c" class="nlkfqirnlfjerldfgzxcyiuro">一种气体</span>
<span id="1cc6dcf217f24a3ab8d91cd808f11228" class="nlkfqirnlfjerldfgzxcyiuro">检测装置</span>
<span id="727fed1d41fd499b90743629ccc246e0" class="nlkfqirnlfjerldfgzxcyiuro">及其使用方法</span>
<span id="285e5de9d8db42ef88c2c27c62abab9c" class="nlkfqirnlfjerldfgzxcyiuro">检测装置</span>
<span id="4ef795a61c9746219caac7d220d7c4ab" class="nlkfqirnlfjerldfgzxcyiuro">及其使用方法</span>
<span id="6cd4b49ac6af4fa2ad193c0bc9b7b42e" class="nlkfqirnlfjerldfgzxcyiuro">及其使用方法</span>
</span></td>
想要匹配到的信息是:一种气体检测装置及其使用方法
正则表达式过滤掉span标签
如果是批量导出,分析类似页面的信息排序,取第一个符合要求的字符串序列,类似这个取 span标签下的 2,4,7......
id与后面的内容作为key-value进行提取,会比较有用吧,其他的数据有冗余。
可以用Jsoup去解析.
这个我已经解决了,谢谢大家的帮忙!