python 如何在一句英文音频中,寻找每个单词的开始时间和结束时间?

求大神指导:
如何在一句英文中找到每个单词在什么时候开始,在什么时候结束。
语音的句子是:oh! my soap boat!

首先你要能识别出英文来。外国人喜欢连读,有时候连我都听不出来是一个单词还是几个单词在一起。
当然,如果一个单词一个单词念,根据声强就能切割,但是这是理想情况。