不理解书上于对极大似然估计的描述

如图，前面关于似然函数的都理解，但是最后“假设机器学习算法就是概率函数”不懂，为什么机器学习算法f(x)可以假设为概率函数啊，另外假设为概率函数后，为什么要乘一个真实的标记y(i)啊

1、首先讨论楼主的第一个问题，为什么机器学习算法f(x)可以假设为概率函数？
个人理解：结合楼主提供的图片信息，这里的机器学习算法应该是特指分类的算法，本图中的机器学习算法用大白话说就是，给定一个输入，输出一个结果，根据结果判断分类的结果；如果是二分类，算法的输出结果是0或1最好，但一般的算法输出结果都会是个概率值（除非你自己任务规定大于多少输出1，反之输出0），根据概率值接近0还是1来判断分类的最终结果。综上所述，可以将本图的机器学习算法假设为概率函数。

2、假设为概率函数后，为什么要乘一个真实的标记y(i)？
个人理解：真实的标记y(i)不是0就是1，所以感觉这样做是为了凑出交叉熵的表达形式。哈哈。

对于分类算法，可以将样本的标签做 on-hot 编码，也就是是哪个分类，那个分类就是1，其余都是0
而你的模型就是去学习拟合每个分类的概率。