字符串 截取部分内容 , 求提取方案

如图

图片说明

需要截取图中画框内容

要做数据清洗都是找规律,LZ只给了一段,很难断定规则是不是都适用于所有在给出来的例子中
用正则表达式基本可以全部截取出来
re.find_all('>(.*?)<',html)可以获得1 4 5 这3个数据
然后用 re.search(r'"[0-9]{4}-[0-9]{1,2}-[0-9]{1,2}(.*?)"',html) 截取时间
re.search(r'https://gepinte.com/[0-9]{1,}.html',html) 截取网址

用正则表达式(re)可以搞定,re.find_all()函数,最后一个值取出来后需要处理一下。
方法是:先定位字符串开始和结束的位置,然后用.*?取值。