爬虫时只有中文部分没有乱码,请问该怎么进行网页解析,提取中文

�������G뭣 (���31d7cc2c:678的你是魔鬼吧@����b40333955180265477p�ƾ

代码:

  • print(re.match(r'[^\u4e00-\u9fa5]*([\u4e00-\u9fa5]*)[^\u4e00-\u9fa5]*', '�������G뭣 (���31d7cc2c:678的你是魔鬼吧@����b40333955180265477p�ƾ').group(1))

正则表达式:[^\u4e00-\u9fa5]*([\u4e00-\u9fa5]*)[^\u4e00-\u9fa5]*

解释:

  • [^\u4e00-\u9fa5]* 匹配任意非中文字符
  • ([\u4e00-\u9fa5]*) 匹配并捕获连续的中文字符
  • [^\u4e00-\u9fa5]* 再匹配任意非中文字符
  • 这样捕获分组的第1个就是中文