爬虫时只有中文部分没有乱码，请问该怎么进行网页解析，提取中文

�������G뭣 (���31d7cc2c:678的你是魔鬼吧@����b40333955180265477p�ƾ

代码：

print(re.match(r'[^\u4e00-\u9fa5]*([\u4e00-\u9fa5]*)[^\u4e00-\u9fa5]*', '��G뭣 (��31d7cc2c:678的你是魔鬼吧@��b40333955180265477p�ƾ').group(1))

正则表达式：[^\u4e00-\u9fa5]*([\u4e00-\u9fa5]*)[^\u4e00-\u9fa5]*

解释：