关于#Bert#的问题,如何解决?

想透過fine tune Bert 做情感分類問題 , 並手動標記約10000筆文本作為training set一共三個類別,分佈如下 類別1 20% ,類別2
25% ,類別3 55% ,我需要去平衡三者的樣本數,還是保留現狀即可

乘上問,若我要驗證模型的精確度,我的testing set需要與training set 具有相同的樣本分佈嗎

个人感觉不会有太大影响,可以保留现状,如果有时间有精力的话可以调整下看看样本数平衡后模型的效果。
validation set 和 testing set最好跟training set有相同的样本分布