1D CNN的输入问题。

问题遇到的现象和发生背景

对于已经提取到的帧级别的音频特征,一个音频文件分为96帧样本,现在做1D CNN, 导师让我把输入改成每三帧看成一个样本,输入网络,原来是每一帧当一个样本,现在是每三帧一个样本。取三帧的方式是帧移一帧,也就是说原来的0-2帧为第一个样本,2-4为第二个样本,以此类推。

问题相关代码,请勿粘贴截图

原来是1000000帧量,每一帧有130维特征。也就是说输入变成(3,130)原来是(1,130)

我想要达到的结果

HELP! Please

你的问题是啥?你的目标是什么?是提取帧不会吗?还是cnn不会?你的任务是语音识别吗?python有个librosa的库,可以很容易提取音频特征。还有我看你每3帧一个样本,每次帧移一帧,不应该是0-2一个样本,1-3一个样本吗?你是想用conv来提取音频特征,那就是卷积核size为3,strides=1

3帧图像分别进行embedding后再进行通道拼接,你也可以自己加权求和或者加权平均。

你想的和老师说的可能不是一回事