Pycharm| 删除excel文件中的emoji表情符号、URL以及HTML等

使用pycharm编写程序爬取了某个微博用户的评论数据保存于Excel中,但是不知道如何对该数据进行清洗。评论数据里有许多表情,HTML等。我想将数据进行一定程度上处理,只保留文本以方便后续进行分析。请能够灵活运用pycharm的网友给予我技术上的帮助,非常感谢!PS:最好能提供相关代码以供参考。😊

将评论内容读取成数据框,尝试如下处理办法:

import pandas as pd
import re
df=pd.DataFrame({'评论内容':['这是abc。。。测试','使用<div class="title">语言']})
df['评论内容']=df['评论内容'].apply(lambda x :' '.join(re.findall('[\u4e00-\u9fa5。,!:?]+',x)))
print(df)