一直没搞懂,为什么能接在BERT或LSTM后面
基于统计
CRF层主要用于建模标签之间的关系。
假设有BIEO四个标签,那么O标签后面不可能为I或者E,只能是B或者O。同理,其他标签也具有类似的性质。
CRF层会学习一个概率转移矩阵,用来表示从一个标签转移到另一个标签的概率。
如果不用CRF也可以进行NER任务,但是效果可能没那么好,而且学习起来也比较困难。