大家好,我在网上收集了一些新闻标题数据,格式是csv的,里面有些新闻标题是重复的,但是有些新闻标题有出处来源(如上图),所以用python进行信息去重的时候,无法去除。想请教大家,如何对类似的信息进行去重,请指点,谢谢!
你可以忽略空格后面的部分,只比较前面的部分
可以判断开头是否相同,用 s[0:n] 截取