有关数据清洗的问题,还请解答一下,谢谢。当数据量较大时,如何判断数据清洗完毕?
你的问题是看清洗工作的质量,还是看计划的清洗动作是否完成?如果是清洗工作质量,要关注质量指标,检测标准。如果是清洗动作,那要关注清洗内容是啥,数据量有多大?具体清洗工作代码要做提示。
一般认为数据清洗主要包括噪点,数据缺失处理。我觉得应该把降维,数据量过多简化数据,数据过少增多数据,清楚数据冗余,数据离散化都应该算在清洗里。