输入一段音频,然后做出应答

输入几个固定音频,输出几个固定音频,要求输入的可以自己喊出来录入,输出的就固定应答,两个字“我在”录入自己的声音

请详细说明一下,举例子说明你要的输入和输出。