Python怎么去除文本中一串乱的字母

img


怎么在处理文本时删除这样的一大串胡乱打一堆字符呢?

删除的具体规则是什么?
比如删除连续在一起的20个以上英文字符:

import re
s = '''
text hggjhhhjjjhkjgjjjjjjjjjjgjgjgjhjgyhgfh hello
gggggfhggghjghjghjthghfghhgjghjhhffhghghjg
good hghgjhjhjkhjhgjhhkjhghjhjg
'''
s = re.sub(r'[a-zA-Z]{20,}','',s)
print(s)

如有帮助,请点击我的回答下方的【采纳该答案】按钮帮忙采纳下,谢谢!

img

s = """Hate you

;uhbsirtubgyihihlkjngkjbnkgjnbkifgnbknfgjkbnkfjgnbjkfnj"""

res = filter(lambda x: len(x) < 30, s.split())  #这个30由你定,超过它的就是胡乱的字符
print(' '.join(res))

这个要看乱码怎么来的,是不是获取方式有问题