知道MFCC对人耳对声音的感知进行了模拟,除此之外还有啥有点吗?
MFCC是基于人耳听觉模型的一种算法,而LPCC则是基于线性预测的一种算法。
大多数乐器识别选用MFCC而不是LPCC的原因是因为MFCC的特征提取效果相对更好,更符合人耳的听觉特性。MFCC是根据人耳对音高和音强的感知特性来设计的,因此能够提取出音频信号中与人耳感知相关的重要信息,包括声音的音调、音高和音色等特征,这些特征对于乐器识别非常重要。
相比之下,LPCC则更适用于语音识别等应用场景,因为它可以提取出音频信号中的谐波频率和共振峰等特征,而这些特征对于语音识别非常重要。
当然,对于某些特定的乐器,LPCC也可以作为特征提取算法来使用。不同的乐器、不同的应用场景可能需要不同的特征提取算法,需要根据具体情况进行选择。
预加重
预加重处理其实是将语音信号通过一个高通滤波器:
Y(n) = X(n) - μX(n-1)
y(n) 指输入的是离散信号
H(z) = 1 - μz^-1
H(z) 指输入的是连续信号
上式中μ的值介于0.9-1.0之间,我们通常取0.97。预加重的目的是提升高频部分,使信号的频谱变得平坦,保持在低频到高频的整个频带中,能用同样的信噪比求频谱。同时,也是为了消除发生过程中声带和嘴唇的效应,来补偿语音信号受到发音系统所抑制的高频部分,也为了突出高频的共振峰。
def pre_emphasis(sinal, coefficient=0.97):
import numpy
return numpy.append(signal[0], signal[1:] - coefficient * signal[:-1])