最近导师给了一个案子 刚从企业里拿到data 导师说先让我整理一下这些data 请问各位大神 一开始整理data都应该做些什么正规化标准化之类的嘛?
数据的整理、清理、清洗。
将散碎的数据,整理出结构化、具有一定固定行列的数据,将txt html xls等很多文件分散的数据放在同一的数据库里
将文本格式的变成数字格式
去掉失效的、不完整的、噪声数据
去掉和你要研究的问题无关的、关系不大的数据,做相关性分析(比如用pca)
数据清洗,按照一定规则整理数据,不符合规则的数据、存在缺项的空数据、一眼看上去偏差较大的数据、偶尔出现异常0数据删除掉