Xml文本如下:
想读取标签claim-text的内容,代码如下:
from xml.dom import minidom
doc = minidom.parse("201410447057NEW.xml")
root = doc.documentElement
claimtext = root.getElementsByTagName("claim-text")
print claimtext[0].firstChild.data
结果显示: 1.一种与电子显示器通信并且用于控制淋浴出口的系统,所述系统
并没有
标签后的内容,该怎么读取br标签的内容呢?求解。
用正则表达式,或者dom查找
可以把里面的对标签里面的html元素进行过滤。
首先
标签是换行标签,他不会包含内容的。
其次,这个“包括”是属于标签里的内容
直接用beautifulsoup的text或者lxml提取即可
br 标签是换行标签
“包括”这两个字是属于claim-text标签的内容