运行lda时报错memoryerror:不能为XXX分配XX G 空间。我的数据大概几万到几十万条,100MB以内,想问下大家运行大规模数量的lda时怎么解决这个问题?
降低模型的复杂度,比如减少主题数、减少词汇量等。
使用更高配置的机器,比如增加内存大小、使用GPU等。
利用分布式计算框架,比如Spark、Hadoop等,将模型分散在多台机器上运行,以减轻单台机器的内存压力。
采用增量式训练的方式,将数据分批次进行训练,以减少一次性加载所有数据所需的内存。