多模态数据前端融合数据量不匹配的疑问

您好，我想问一下您在多模态数据融合前端融合方法中，怎么处理不同模态数据数量不一致的问题呀？

比如我是一个人的一系列的图片和这个人的语音信号，那么一段语音信号相对应的人脸图片可能有好几十张，不知道您有没有遇到过类似场景。

可能的解决方法：1、按最小数量的那个数据；2、对最小数据量的模态做数据增强。不知道可不可行。麻烦了