hadoop 面向大数据的RandomForest

l7mqbcuq  于 2023-04-29  发布在  Hadoop
关注(0)|答案(1)|浏览(135)

我正在处理超过400万条记录的大数据,我想根据9个变量预测3个标签。我使用了RandomForest,但它需要几个小时,我想知道是否有什么方法可以在我的代码中包含Hadoop来缩短时间。
注意:我使用Kaggle notebook,会话配额为:12小时最大30 g ram最大

c3frrgcw

c3frrgcw1#

在使用Hadoop之前,让我们先弄清楚它提供了什么以及你是否需要它。
Hadoop是一个技术栈,提供分布式文件系统(HDFS),分布式处理资源协商器(YARN)和MapReduce框架。
当您希望分布式计算并使用更多资源更快地解决问题时,它非常有用。但是为你的任务创建hadoop集群可能有点大材小用。
你可以使用Spark和RandomForestClassifier。Spark是一个内存分布式计算引擎,对ML算法有很好的支持。
Spark可以与Hadoop一起运行,但这不是一个严格的要求。您也可以在独立模式下运行Spark,也可以使用Mesos或Kubernetes运行。

相关问题