多模态数据前端融合数据量不匹配的疑问

问题遇到的现象和发生背景

您好,我想问一下您在多模态数据融合前端融合方法中,怎么处理不同模态数据数量不一致的问题呀?

比如我是一个人的一系列的图片和这个人的语音信号,那么一段语音信号相对应的人脸图片可能有好几十张,不知道您有没有遇到过类似场景。

可能的解决方法:1、按最小数量的那个数据;2、对最小数据量的模态做数据增强。不知道可不可行。麻烦了

问题相关代码,请勿粘贴截图
运行结果及报错内容
我的解答思路和尝试过的方法
我想要达到的结果