最大似然估计为什么用概率密度？

在极大似然估计里，我们选择的是那些使得样本出现概率最大的参数，但是在连续型概率密度的情形下，一个单独的样本出现的概率为零，这样的话，使用最大似然估计，不是起不到应有的效果吗？另外，为什么可以用概率密度来作为优化的目标函数？

在连续分布情形，单点的概率为零。但是求导，不同点的相对概率是不同的， f(X=x)/f(X=0)，概率密度高的点，相对概率也高。