为什么这里算概率一定要把这些全部加起来，为什么不能像一个一个地算，求出最大概率为声学对齐结果呢?

如果你的模型参数已经优化好了，最大概率是声学对齐，如果是一个随机初始化的模型，最大概率的那个系列只是一个随机对齐。
假如你的初始模型，在标注约束下预测出的是“我我我我我我我爱东哥”，然后你又把这个输出当作是正确对齐，那你的模型无论怎么学。学到的还是这个输出。

如果只是从概率公式上看，“文本标注=我爱东哥”这个事件，等价于其“所有个可能的对齐”组成的事件，所以可以写成这些子事件的概率之和。