正则表达式匹配中文字符串

请问如何用正则表达式匹配由两个及两个以上连续名词构成的字符串 比如高新技术,工业经济时代这样的字符串呢

只能匹配单个汉字作为一个字符,你说的识别中文名词词性这样的功能,要使用中文分词的模块,现在还没有特别完美的模块。

正则表达式只能匹配某一编码范围的字符,无法区分这个字符是不是名词,

看一下,这两个是你需要的么

img

img

想识别名词要用NLP里的分词了

必须用正则吗,分词再匹配不行吗

给你一个思路,先用正则匹配出所有的中文,然后再用jieba分词

可以试试CSDN的一分钱api呢,我试过倒是不错
如果就要求自己用正则实现真的就是作业有问题

匹配一个或多个连续字符
用+符号, a+,意思是匹配1个或多个字符a;[0-9]+,意思是匹配一个或多个数字