要匹配所有有效的python标识符,刚开始我就直接用
pattern = re.compile(r'\b[A-Za-z_]\w*\b')
line='abc acv_ M abc$'
re.findall(pattern,line)
可是结果是
['abc', 'acv_', 'M', 'abc']
‘\b’没有其效果吗?
接着我有换了个pattern
pattern = re.compile(r'(?<![^A-Za-z_ ])\b[A-Za-z_]\w*\b(?![^A-Za-z_ ])')
line = 'kdfs !sldkj$ d;slk'
re.findall(pattern,line)
结果是
['kdfs']
好像正则表达式没有那么好用啊!
有没有更好的方法呢!
求教大佬。
import re
pattern = re.compile(r'(?<![\$!`;])\b[A-Za-z_]\w*\b(?![\$!`;])')
line='abc+acv_ M 7j !XF abc$'
a = re.findall(pattern,line)
print(a)
主要是\b无法区分哪些特殊字符是标识符中的非法字符,哪些字符是python的运算符。
与非法字符相连的标识符不是有效的python标识符,
但与运算符相连的标识符可以是有效的python标识符,
要用 (?<![\$!`;])和(?![\$!`;]) 来区分标识符前后是不是非法字符
[\$!`;]中的是非法字符,你可以自行添加
python标识符有效的条件:
在python里,标识符有字母、数字、下划线组成。
在python中,所有标识符可以包括英文、数字以及下划线(_),但不能以数字开头。python中的标识符是区分大小写的。
所以正则表达式为:
patt = '^[a-zA-Z_]\w+'
您好,我是有问必答小助手,你的问题已经有小伙伴为您解答了问题,您看下是否解决了您的问题,可以追评进行沟通哦~
如果有您比较满意的答案 / 帮您提供解决思路的答案,可以点击【采纳】按钮,给回答的小伙伴一些鼓励哦~~
ps:问答VIP仅需29元,即可享受5次/月 有问必答服务,了解详情>>>https://vip.csdn.net/askvip?utm_source=1146287632