我有一个有2900万行的数据集,我正在使用azuredatabricks和sparkr来处理数据和构建预测模型。collect(df)命令的问题是它在集群上消耗了大量的内存空间和时间,因此我想是否有人可以帮助我将sparkDataframe转换为rDataframe的方法;比collect命令更有效。
目前还没有任何答案,快来回答吧!
暂无答案!
目前还没有任何答案,快来回答吧!