频数分布直方图中的密度分布曲线是不是就是X轴数值的概率密度函数PDF呢?
在频数分布直方图中,横轴是连续变量,在某一个区间上出现的频数是该区间内数据点的个数。如果将每个区间的频数除以总样本量,可以得到该区间内数据点的百分比或比例(即某一区间的相对频数),这些比例构成的曲线称为频率多边形。
通过对频率多边形进行平滑处理,就可以得到类似于“钟形曲线”的连续曲线,称之为密度分布曲线 (PDF)。密度分布曲线是用来描述连续随机变量取值的分布情况的,与具体样本无关。而频数分布直方图中的相对频数所组成的曲线只反映了该特定样本的分布情况,不能称之为概率密度函数PDF。
今天就分享一下,我在研究学习 机器学习-决策树 这一部分知识时,遇到导出决策树,有时不支持中文。今天总算研究完整,实现了导出PDF文件、PNG图片都支持中文的方案。
最关键的部分是在代码中,加入本地支持字体
dot_data=dot_data.replace('helvetica','"Microsoft Yahei"') # 这句话很关键,把支持中文的字体
以 Sklearn 自带的Wine数据集为例。