爬取后得到的文本内容空行太多,如何消去?

下面是我爬取到的文本内容

img

个人感觉空行太多,想要从代码上解决

下面是我的代码:(希望可以帮助我)

img

删除内容中的空行
如果是纯文本的:

import re
s = '''aaaaaaaaa

bbbbbbbbbbbbb



ccccccccccc

dddddddddddd'''

s = re.sub(r'\n\s*\n','\n',s)
print(s)

如果是html的:

import re
s = '''aaaaaaaaa<br />
<br />
bbbbbbbbbbbbb<br />
<br> <br>
<br />
ccccccccccc<br>
<br />
dddddddddddd'''

s = re.sub(r'<br\b[^>]*>(<br\b[^>]*>|\s)*<br\b[^>]*>','<br />',s)
print(s)

如有帮助,望采纳!谢谢! 点击我这个回答右上方的【采纳】按钮

可尝试在代码中获取数据的语句中,加上if else 语句过滤滤掉空行,或对chapter_content内容strip(),还可用‘br’那个字符串作为分隔符去split(),再用join拼接,总之通过字符串的这些方法来去除空行。试一下这样:

chapter_content='\n'.join([x.strip() for x in chapter_content.split("<br />"])

用.replace()替换到


>>> txt = '''abcdef


111111


kllfdf


222222'''
>>> print(txt.replace('\n\n\n','\n'))
abcdef
111111
kllfdf
222222
>>>