python模式匹配中文本,模式中含有中文词类和中文的标点符号类。实验测试过只有中文的词类能匹配出结果,加上自定义的逗号词类和符号词类就没有匹配结果,也不报错。为什么识别不出定义的标点符号,只能识别出中文词类呢?不知道问题出在哪?
附上我写匹配模式的规则、定义的词类和模式格式。
if name.endswith('词类'):
rule = list(re.split(r'\|', rules))
rule = '\s+(?:' + ('|'.join(rule)) + ')/\S*\s+'
中文符号转换成Unicode编码添加在表达式中就行了