最大似然估计为什么用概率密度?

在极大似然估计里,我们选择的是那些使得样本出现概率最大的参数,但是在连续型概率密度的情形下,一个单独的样本出现的概率为零,这样的话,使用最大似然估计,不是起不到应有的效果吗?另外,为什么可以用概率密度来作为优化的目标函数?

在连续分布情形,单点的概率为零。但是求导,不同点的相对概率是不同的, f(X=x)/f(X=0),概率密度高的点,相对概率也高。