决策树分类器中,是如何处理缺失值的?

决策树分类器中,是如何处理缺失值的?,决策树分类器中,是如何处理缺失值的?决策树分类器中,是如何处理缺失值的?决策树分类器中,是如何处理缺失值的?

首先,缺失值处理在所有模型中都是必要的

决策树因为自身特点,对缺失值非常敏感

所以决策树模型在处理缺失值问题上比其他模型都更复杂

下面让咱们讨论缺失值

首先要明确的是 缺失值处理是个广泛而复杂的问题

缺失值处理一般有几种方法

1. 默认值填充

2. 插值填充

3. 模型填充

 

关于默认值填充,没啥可说

    具体的例子一般有[异常值/均值/最小值/最大值]等

插值填充是默认值填充的演化,使用一些方法对空值的更合理的填充,比如视频或者图片的分辨率插值变换等.

    具体的例子有[临近值填充/平滑填充]等

模型填充是对插值填充的拓展,依据建模类型一般分成回归类和生成类

    回归类一般以罗辑回归为代表

    生成类一般可以用朴素贝叶斯模型

 

写在最后

其实建模问题本质上是对现实问题的转化,通过一个或者多个模型描述现实问题

通过数据的输入描述现实中的情况

通过模型的输出期待得到现实问题的答案

所以数据的作用是用来表征现实世界的

举个例子:

一个你不认识的人,你通过他的口音判断他的家乡,通过他的言谈举止揣测他的性格等

这本身就是建模,是对空值的填充. 

 

 

 

 

 

特定类型的值会有不同的处理方式,需要根据你的数据集和特征去决定,一般情况下会给定一个默认值,或者直接去掉这一条数据