可以用re.findall('[0-9\u4E00-\u9FA5]+',s)获取中文及数字,再根据需要析出自己想要的内容。对整个网页文本用正则匹配是比较繁琐的,要么匹配不到,要么就是很多不想要的内容也匹配出来,正常情况下使用bs4解析后,用soup.select()选取节点得到属性值或文本等相关内容。
针对你提供的代码段及需求,获取办法:
res1 = re.findall('<p.*>([0-9\u4E00-\u9FA5]+)|([0-9\u4E00-\u9FA5]+)', s)
result=[x for m in res1 for x in m if x!='']