对于已经提取到的帧级别的音频特征,一个音频文件分为96帧样本,现在做1D CNN, 导师让我把输入改成每三帧看成一个样本,输入网络,原来是每一帧当一个样本,现在是每三帧一个样本。取三帧的方式是帧移一帧,也就是说原来的0-2帧为第一个样本,2-4为第二个样本,以此类推。
原来是1000000帧量,每一帧有130维特征。也就是说输入变成(3,130)原来是(1,130)
HELP! Please
你的问题是啥?你的目标是什么?是提取帧不会吗?还是cnn不会?你的任务是语音识别吗?python有个librosa的库,可以很容易提取音频特征。还有我看你每3帧一个样本,每次帧移一帧,不应该是0-2一个样本,1-3一个样本吗?你是想用conv来提取音频特征,那就是卷积核size为3,strides=1
3帧图像分别进行embedding后再进行通道拼接,你也可以自己加权求和或者加权平均。
你想的和老师说的可能不是一回事