NLP-NER任务的CRF-layer到底是什么原理?就是基于统计?

一直没搞懂,为什么能接在BERT或LSTM后面

基于统计

CRF层主要用于建模标签之间的关系。

假设有BIEO四个标签,那么O标签后面不可能为I或者E,只能是B或者O。同理,其他标签也具有类似的性质。

CRF层会学习一个概率转移矩阵,用来表示从一个标签转移到另一个标签的概率。

如果不用CRF也可以进行NER任务,但是效果可能没那么好,而且学习起来也比较困难。