请给个关于数字语音信号学习的思路，最终目的是为了实现音频质量检测的工具

音频质量问题：pop音、杂音、卡顿等问题
目前学到了一些关于特征提取的知识，如：时域方面有短时过零率、短时能量等，频域有傅立叶变换
因为也是首次接触语音信号，之前对这类知识也没有系统的学习，所以也是一脸懵
以pop音为例，如果要通过算法检测，我目前思路是将音频划分成多个时间段，在时间段内存在高音部分，就算是有问题，但采用何种算法去实现没有任何思路