如何获取隐藏在网页文本中的数据呢

如何获取网页文本中的一些数字数据呢?比如一篇文章介绍了近几年来一种疾病发病率变化,我该如何在网页的文本中快速的获得这些发病率呢.

可以通过编写一个简单的程序来获取网页文本中的数字数据。使用Python编程语言,您可以使用BeautifulSoup库来解析HTML,并使用正则表达式提取数字数据。

import requests
from bs4 import BeautifulSoup
import re

url = 'https://example.com'   # 用您要获取数据的网页的URL代替这里的示例URL
r = requests.get(url)
soup = BeautifulSoup(r.content, 'html.parser')

# 在文本中查找数字数据
pattern = re.compile(r'\d+(?:\.\d+)?%?')  # 用正则表达式定义数字数据的模式
data = [float(x) for x in pattern.findall(soup.get_text())]
print(data)

你可以等 nlp 技术彻底成熟到商用程度,或者自己写正则,按规律提取

您可以看看:https://blog.csdn.net/weixin_49848200/article/details/126993665

您好,我是有问必答小助手,您的问题已经有小伙伴帮您解答,感谢您对有问必答的支持与关注!
PS:问答VIP年卡 【限时加赠:IT技术图书免费领】,了解详情>>> https://vip.csdn.net/askvip?utm_source=1146287632