决策树分类器中,是如何处理缺失值的?,决策树分类器中,是如何处理缺失值的?决策树分类器中,是如何处理缺失值的?决策树分类器中,是如何处理缺失值的?
首先,缺失值处理在所有模型中都是必要的
决策树因为自身特点,对缺失值非常敏感
所以决策树模型在处理缺失值问题上比其他模型都更复杂
下面让咱们讨论缺失值
首先要明确的是 缺失值处理是个广泛而复杂的问题
缺失值处理一般有几种方法
1. 默认值填充
2. 插值填充
3. 模型填充
关于默认值填充,没啥可说
具体的例子一般有[异常值/均值/最小值/最大值]等
插值填充是默认值填充的演化,使用一些方法对空值的更合理的填充,比如视频或者图片的分辨率插值变换等.
具体的例子有[临近值填充/平滑填充]等
模型填充是对插值填充的拓展,依据建模类型一般分成回归类和生成类
回归类一般以罗辑回归为代表
生成类一般可以用朴素贝叶斯模型
写在最后
其实建模问题本质上是对现实问题的转化,通过一个或者多个模型描述现实问题
通过数据的输入描述现实中的情况
通过模型的输出期待得到现实问题的答案
所以数据的作用是用来表征现实世界的
举个例子:
一个你不认识的人,你通过他的口音判断他的家乡,通过他的言谈举止揣测他的性格等
这本身就是建模,是对空值的填充.
特定类型的值会有不同的处理方式,需要根据你的数据集和特征去决定,一般情况下会给定一个默认值,或者直接去掉这一条数据