爬虫时,json里面有html格式内容,该如何提取

先用字典键名取含html代码的那部分值 ,用BeautifulSoup进行解析提取相关数据,用如下代码尝试:

from bs4 import BeautifulSoup as bs
#假如返回jason的数据变量名为data
title=data['data']['trackInfo']['title']
content = data['data']['trackInfo']['richIntro']
soup=bs(content,'lxml')
para=[x.text.strip() for x in soup.select('p')]
result=title+'\n'+'\n'.join(para)
print(result)

如果解答对你有所帮助或启发的话,请点一下采纳。

先用字典键名取含html代码的那部分值 ,用BeautifulSoup进行解析提取相关数据,也可用正则提取。

 

您好,我是有问必答小助手,您的问题已经有小伙伴解答了,您看下是否解决,可以追评进行沟通哦~

如果有您比较满意的答案 / 帮您提供解决思路的答案,可以点击【采纳】按钮,给回答的小伙伴一些鼓励哦~~

ps:问答VIP仅需29元,即可享受5次/月 有问必答服务,了解详情>>>https://vip.csdn.net/askvip?utm_source=1146287632