bert为什么还需要结合其他特征提取器

bert在文本表示方面效果就很好,为什么nlp领域很多论文许多论文用bert结合其他模型?诸如bert+bigru等等,这里bigru的作用是什么呢?是对bert表示后的文本进行深层次的特征抽取吗?

bert是实体关系抽取比较好的方法。
结合bigru等其它方法,只是做优化改进。bigru可以减少时间