最近要实现一个自动摘要算法,需要找出段首句和段尾句,并给他们赋予权重,所以如何找出段首句和段尾句?(ps:从网上爬下来的文档分段不是很分明,但是两个句子之间空有有四个字节)
句子之间一般是通过标点符号,或者html的p span br之类分割的,你要找到规律。