请问使用jieba分词如何避免把我的时间词分开?

img

img

img


如图,如何避免jieba分词将时间词分割开,比如


['4', '月', '28', '日', ',', '李大钊', '在', '北京', '英勇', '就义', '。']    #希望分出来的是”4月28日“
['4', '月初', ',', '蒋介石', '等', '在', '上海', '举行', '秘密会议']    #希望分出来的是”4月初“
['1927', '年', '3', '月', '21', '日', ',', '当', '北伐军', '推进', '到', '上海', '近郊', '时']  #希望分出来的是”1927年3月21日“

麻烦的点在于输入的文本的时间词也并不是很规范的”XX年AA月MM日“的形式,有的有年、有的没有月和日,大概需要实现一个模糊匹配不分开的效果,请赐教,不胜感激。

能不能用正则表达式先将这些筛出来,然后将其在语料中的删除,新的语料使用jieba分词,最后将两组词拼接