每个样本有3个不同的文本,这种多个feature的样本如何做NLP分类任务

有多个feature的样本如何做NLP分类任务?
共1000个样本,每个样本有3列不同的文字数据(第一列是颜色,第二列是用药,第三列是病情描述),这种多个feature的样本如何做NLP分类任务?常规NLP的每个样本只有一段文本,但是我的每个样本有3个文本,而且每个文本对分类的权重不同,该如何做?

希望有用
https://b23.tv/evd5bRE

1、首先需要分析的是,是否这个特征对最终的分类结果有影响,比如,这里颜色是不是对你分类有关系,如果没有关系,那就把这个特征去掉。
2、有影响的特征列可以作为特征融合加入,两段文本做特征层的拼接,并乘上一个权重向量,让神经网络去学习每一部分的权重,需要注意的是保持数据集的分布平衡,每一种特征的样本数尽可能差不多,不然模型容易学偏。

思路1:最简单的就是三段文本拼接,但是这种方法可能会覆盖掉每段文本的权重不同的问题。
思路2:三个并行语言模型,最后一层加个线性矩阵融合成一个向量进行分类;
思路3:每个样本都当成独立样本进行训练,最后预测的时候,3个一组3个一组的预测,每组会预测出三个值,然后用投票机制判断最终的预测结果。可以根据对每个预测输出的置信度卡个不同的阈值来判断每个样本的预测结果,最后投票。
思路4:用xgb模型。特征值可以是句向量。这样最后你还可以看到每个特征的重要度。
望有帮助,谢谢。