请给个关于数字语音信号学习的思路,最终目的是为了实现音频质量检测的工具

音频质量问题:pop音、杂音、卡顿等问题
目前学到了一些关于特征提取的知识,如:时域方面有短时过零率、短时能量等,频域有傅立叶变换
因为也是首次接触语音信号,之前对这类知识也没有系统的学习,所以也是一脸懵
以pop音为例,如果要通过算法检测,我目前思路是将音频划分成多个时间段,在时间段内存在高音部分,就算是有问题,但采用何种算法去实现没有任何思路