想用split()来将英文文章分成句子,但是文章中缩写(如U.S)的“.”会影响句子的切分。
请问有什么方法可以避免缩写中符号的干扰吗?有尝试用nltk包,但是跑不通。有什么方法可以在split()的基础上对代码进行更改吗?
你看看句子之间除了句号(.)以外,是不是还有一个空格或换行。如果是的话,就根据组合来拆分,比如 split('. ') 或 split('.\n')
如果还是不行的话,缩写的特征一般都是一个字母加一个点,可以先用正则式找出所以缩写,把缩写之间的点依次替换成其他符号,然后再split