求解课题思路:识别语料中“实体发生迁移”的范式

目前是杭州某研一新生入学一个多月,项目组是做自然语言处理和计算社会学的。导师给我的课题大致概括是“全球科学家流动性分析”。里面关键的一个步骤是,我需要识别一段语料中,是否有科学家发生了地理位置上的变换,从哪里出发到达了哪里。

我现在是跟着机器学习的课学到了RNN,CNN,LSTM,word2vec,bert这些模型,底层的数学原理没有深究,只停留在会用的阶段。

目前想到的解决方案是用双向LSTM+CRF的模型,先人工的给语料中的“人名”,“动词”,“地名”打上标签,再模型训练,再用模型去预测新的语料中是否存在标签。

比如这个语料里我用brat这个上标签的软件打上了四种标签,希望模型训练完以后能够预测标签,之后再做处理。

img


(我们组里都是做英文语料,这个中文的我是用来举例)

后续的处理目前也没想很多,并且这个打标签的过程需要我研究出一套方法论,也需要全人工,我一个人做这个课题我觉得很难有足够多且质量高的标签语料,所以我对这个解决方法期望并不大,特来讨教。
想请教大家,是否有别的思路和模型可以解决这个问题。关键就是提取出语料中“人名实体”,“表迁移的动词”,“出发点和目的地”这几个关键信息。超出我目前能力的知识和模型我都可以去学习,现在缺少一个让自己努力的思路,有点迷茫,希望大家赐教。

去aistudio中搜命名实体识别

接触不深,仅供参考:https://blog.csdn.net/u013010473/article/details/106439332/