最近在打一个天池承办的比赛,链接如下
https://tianchi.aliyun.com/competition/aiteenager/532042/information
很幸运,我目前排第二名,但是昨天刚从第一名掉下来。
这些都是题外话,现在切入正题,大致内容在“赛题与数据”里,没参加比赛也能看到,这是一个自然科学+序列标注的问题
有train.conll dev.conll finall_text.txt三个文件(中文地址要素解析标注规范并不规范,以赛题页为准)
主要问题就是,train和 dev两个文件有错误的内容。conll格式我也不是很熟,所以怎么修改错误的信息?
(非人工标注,通过数据科学的方式)
求指导!
可以使用模型预测并结合人工评估的方法。
首先,需要建立一个用于地址要素解析的机器学习模型,并用训练数据(train.conll)来训练它。然后,可以使用验证数据(dev.conll)来评估模型的准确性。如果模型准确性不理想,可以通过调整模型参数或换用不同的模型算法来提高模型准确性。
最后,可以使用训练出来的模型来预测最终文本(final_text.txt)中的地址要素标签,并对预测结果进行人工评估。如果发现预测错误的部分,可以手动修改这些部分的标签。
最终,可以使用修改后的验证数据和最终文本的标签来更新模型,以提高模型的准确性。