1D CNN的输入问题。

问题遇到的现象和发生背景

对于已经提取到的帧级别的音频特征，一个音频文件分为96帧样本，现在做1D CNN，导师让我把输入改成每三帧看成一个样本，输入网络，原来是每一帧当一个样本，现在是每三帧一个样本。取三帧的方式是帧移一帧，也就是说原来的0-2帧为第一个样本，2-4为第二个样本，以此类推。

问题相关代码，请勿粘贴截图

原来是1000000帧量，每一帧有130维特征。也就是说输入变成(3,130)原来是(1,130)

我想要达到的结果

HELP! Please

你的问题是啥？你的目标是什么？是提取帧不会吗？还是cnn不会？你的任务是语音识别吗？python有个librosa的库，可以很容易提取音频特征。还有我看你每3帧一个样本，每次帧移一帧，不应该是0-2一个样本，1-3一个样本吗？你是想用conv来提取音频特征，那就是卷积核size为3，strides=1

3帧图像分别进行embedding后再进行通道拼接，你也可以自己加权求和或者加权平均。

你想的和老师说的可能不是一回事