最近在研究在Tensorflow环境下RNN循环神经网络的使用,但还是没有弄明白RNN的输入数据是应该怎么准备?比如现在有3种大量的语音信号原始数据,还未经过处理的,分别由3类情感(高兴,伤心,愤怒)组成,现在想使用RNN进行3分类,将这些语音数据代表的情感区分出来,那么应该对这些语音数据做怎样的处理?标签应该如何添加?才能在RNN中完成训练并成功分类呢?十分感谢!
应该对语音先进行预加重、分帧,然后提取一些语音特征比如MFCC,把特征输入到RNN中进行分类,如果用的是python,可以用librosa这个第三方的包,里面有分帧、提取一些特征的函数。