python英文文本分句

要把英文文本分成单句子,之前是以“.”为分隔符来分的,但是文本中有“U.S.”这种缩写,会把缩写也分成句子。请问可以用正则表达式分句来避免这种情况吗?或者有没有其他好方法(不考虑将缩写用其他内容替换掉)

提供一个思路哈。
你缩写,.号两边都是只有一个字母,而句子.号两边都是一串字母。
那你就可以依次用正则来进行拆分,
re.split(r'(.{2,}?).','asc.sas.assa.a.a')

img

这种缩写类型多吗,不多可以用if语句判断

排除.之前是大写字母的情况?

建议你看下这篇博客Python中文文本分句