Python爬虫过程中去除不需要的标签

去除我不想要的标签
全球票房的 数字数据分散 我需要成为正经数

img


img


img

使用BeautifulSoup库可以很方便的去除不需要的标签,具体方法如下:

1.使用BeautifulSoup的find()方法查找到需要去除的标签;
2.使用BeautifulSoup的extract()方法将其从文档中移除;
3.使用BeautifulSoup的decompose()方法将其从文档中完全删除。

decompose,递归删除所有的标签,不保留标签名
1 soup.find('body').decompose()
2 print(soup)

extract,和decompose运行结果相同,但extract会有一个返回值(删除的标签)
1 tag=soup.find('body').extract()
2 print(soup)
3 print(tag)