siamese network的数据集配对的数量该怎么确定?

siamese network配对数据集的时候要把所有的配对都当做输入吗?就比如我有一个两千个数据的数据集,配对之后要求相同标签的占一半以上,所有相同配对的数据量是五十万个,要再找五十万不同标签的配对,然后总体输入是一百万个配对吗?还是有什么别的配对方法不需要这么多的数据量