Python,把年龄一列的类型变量,转变为数值变量,应该用那个公式。

背景:Python的聚类模型练习,
需求:把age年龄一列的类型变量,转变为数值变量。
思考:这里,我只知道有个pd.get_dummies()可以把类型转变为数值,但是这里一用,就每个年龄都成了单独一列,不方便做年龄分析。
Q:有其他更好的方法吗?

img

img

数据是从 dat, csv, 或 xls 文件中读取进来的吧?
如果数据文件中 age 是数值类型,读进来就是数值不用处理。
如果数据文件中 age 是文本类型/字符串,需要转换为数值类型:

df[['age']] = df[['age']].astype(float)  # 指定列 'age' 转换为浮点型,转换为整型用 astype(int)

df.apply(pd.to_numeric, errors='ignore')  # 不指定列,应用于整个 DateFrame, 可以转换为数字类型的列将被转换,而不能转换为数字类型的列将被单独保留

字符中包含逗号和点,无法转换为数字型的,需要先将这些符号去除