return re.findall(r"|<[^>]*>|[\w'@#]+", str.lower())这句话是什么意思啊?匹配的是什么?返回的是什么啊?就是尤其括号里的正则表达式,看不懂了
这个正则写的有点啰嗦,修改一下:return re.findall(r"(<[^>]*?>|[\w'@#]+)", str.lower())
return re.findall(r"(<[^>]*?>|[\w'@#]+)", str.lower())
匹配所有 <开头, >结尾的标签 或 字母,数字,下划线 '@# 随机组合成的字符串
<
>
字母,数字,下划线 '@#
百度下各个是什么意思不就行了