如何获取网页文本中的一些数字数据呢?比如一篇文章介绍了近几年来一种疾病发病率变化,我该如何在网页的文本中快速的获得这些发病率呢.
可以通过编写一个简单的程序来获取网页文本中的数字数据。使用Python编程语言,您可以使用BeautifulSoup库来解析HTML,并使用正则表达式提取数字数据。
import requests
from bs4 import BeautifulSoup
import re
url = 'https://example.com' # 用您要获取数据的网页的URL代替这里的示例URL
r = requests.get(url)
soup = BeautifulSoup(r.content, 'html.parser')
# 在文本中查找数字数据
pattern = re.compile(r'\d+(?:\.\d+)?%?') # 用正则表达式定义数字数据的模式
data = [float(x) for x in pattern.findall(soup.get_text())]
print(data)
你可以等 nlp 技术彻底成熟到商用程度,或者自己写正则,按规律提取
您可以看看:https://blog.csdn.net/weixin_49848200/article/details/126993665
您好,我是有问必答小助手,您的问题已经有小伙伴帮您解答,感谢您对有问必答的支持与关注!