海量数据下机器学习的几个问题

1、建模的耗时问题？
2、如何降低重复建模？
3、基于hadoop等并行计算平台下的机器学习算法该注意什么？
ps：您的个人github地址方便发出来吗？

1、耗时问题，是指模型算起来很慢是吗？这个没办法，要不怎么有并行计算和集群呢，数据量大，算起来比如慢，还好有集群和多核甚至GPU，空间换时间；
2、重复建模，大公司的项目组，一般会将一些常用的算法封装，这样相同的问题就可以服用，尤其是一些耗时的工作，如数据预处理。
3、注意就是可能坑多，开源的东西，踩坑是必然的。
github地址，书里面有。