小白有关一篇论文里使用的机器学习方法的不懂[face]emoji:001.png[/face] 论

小白有关一篇论文里使用的机器学习方法的不懂[face]emoji:001.png[/face] 论文里使用的机器学习方法如下。 第一步、在建立原始数据集后,随机选择了大小为40、50、...、100%的子样本,并使用每个子样本重新学习一个预测模型(该文此处解释的原话,“我们模拟了只有部分原始数据可用的场景,运行该工具来学习对它们(目标群体)的预测模型,然后前瞻性地收集更多的数据,在此基础上的预测性能对模型进行了估计。”) 第二步、JAD(just add data,只是一款机器学习软件)输出从其数据集得到的预测性能估计值,与将其与剩余的数据进行比较得到第二次性能的估计,模拟了预测模型在新模型的应用。每个子样本量重复100次。 方法描述如上,我现在粗浅的理解是笔者在用类似4:6、5:5、...、9:1这样的分配来划分数据集中的训练集和测试集,最后的“每个子样本重复100次”只是来规避偶然误差? 但我的疑问随之而来了。一、我这样的理解是不是没有理解到本意?二、论文里数据总集也只是100个样本量,92个特征向量而已,但笔者似乎通过这样的机器学习方法来训练得到一个不错的预测模型,其原理我还没看明白。(原文标题Chemically intuited, large-scale screening of MOFs by machine learning techniques,doi:10.1038/s41524-017-0045-8) 问题全描述如上,希望各位大神路过伸手搭救,提前感谢!