我试着爬取一个网站的数据时,爬取的标题如下
广州“1+9”科技创新与<em>人</em><em>才</em>政策解读(七)——产业领军<em>人</em><em>才</em>集聚工程政策
想问问有没有什么好的办法可以删去这些个html标签
试过使用正则匹配汉字,但是有些符号比如【】会丢失,且效率不高
使用BeautifulSoup库, pip install beautifulsoup4
from bs4 import BeautifulSoup
html_text = '广州“1+9”科技创新与<em>人</em><em>才</em>政策解读(七)——产业领军<em>人</em><em>才</em>集聚工程政策'
soup = BeautifulSoup(html_text, 'html.parser')
text_without_tags = soup.get_text()
print(text_without_tags)
# 广州“1+9”科技创新与人才政策解读(七)——产业领军人才集聚工程政策
【以下回答由 GPT 生成】
我建议使用Python的BeautifulSoup库来处理HTML标签并提取纯文本的标题。以下是具体的解决方案:
pip install beautifulsoup4
from bs4 import BeautifulSoup
import re
html = '''
广州<span class="hljs-symbol">&ldquo;</span>1+9<span class="hljs-symbol">&rdquo;</span>科技创新与<span class="hljs-tag"><<span class="hljs-name">em</span>></span>人<span class="hljs-tag"></<span class="hljs-name">em</span>></span><span class="hljs-tag"><<span class="hljs-name">em</span>></span>才<span class="hljs-tag"></<span class="hljs-name">em</span>></span>政策解读(七)<span class="hljs-symbol">&mdash;</span><span class="hljs-symbol">&mdash;</span>产业领军<span class="hljs-tag"><<span class="hljs-name">em</span>></span>人<span class="hljs-tag"></<span class="hljs-name">em</span>></span><span class="hljs-tag"><<span class="hljs-name">em</span>></span>才<span class="hljs-tag"></<span class="hljs-name">em</span>></span>集聚工程政策
'''
soup = BeautifulSoup(html, 'html.parser')
text = soup.get_text()
print(text)
代码展示:
from bs4 import BeautifulSoup
html = '''
广州<span class="hljs-symbol">&ldquo;</span>1+9<span class="hljs-symbol">&rdquo;</span>科技创新与<span class="hljs-tag"><<span class="hljs-name">em</span>></span>人<span class="hljs-tag"></<span class="hljs-name">em</span>></span><span class="hljs-tag"><<span class="hljs-name">em</span>></span>才<span class="hljs-tag"></<span class="hljs-name">em</span>></span>政策解读(七)<span class="hljs-symbol">&mdash;</span><span class="hljs-symbol">&mdash;</span>产业领军<span class="hljs-tag"><<span class="hljs-name">em</span>></span>人<span class="hljs-tag"></<span class="hljs-name">em</span>></span><span class="hljs-tag"><<span class="hljs-name">em</span>></span>才<span class="hljs-tag"></<span class="hljs-name">em</span>></span>集聚工程政策
'''
soup = BeautifulSoup(html, 'html.parser')
text = soup.get_text()
print(text)
预期输出:
广州1+9科技创新与人才政策解读(七)—产业领军人才集聚工程政策
这样,你就得到了不包含任何HTML标签的纯文本标题。BeautifulSoup库会自动处理各种HTML标签,并将其替换为适当的文本内容。
【相关推荐】