各位boss们,小学生请教一个问题
我目前有体检人群的住址,可以确定到小区,还有体检人群的体检资料,疾控在该地区的13个监测点的大气污染数据,在R语言里有没有包可以把住址和这个大气污染数据结合在一起分析。或者自己编写语言,处理。
首先要确定你这个体检人群的目标值是什么?打个比方,如果我们把体检出来有问题的人和健康良好的人认为是0和1,那么这就是个二分类问题了,输入就是住址以及这13个点的每日大气污染数据提取出的特征还有这些人体检资料上的基础信息,比如年龄,性别等等,输出就是0或者1,这样用R里的randomForest包或者python里的sklearn里的机器学习相关函数都可以用来训练,这是一种方式,通过这种方式我们也能通过特征重要度分析与shap值,能很快知道影响因素重要度排序。
还有一种方式,我们不从单个人下手而是清楚大气污染与住址联系,这种方式我们可以先通过监测点与住址的经纬度距离,给每个住址的大气污染程度计算一个值,然后分析大气污染与平均体检出的毛病间做相关性分析,最简单的就是分箱操作,正负相关等等。