hadoop 面向大数据的RandomForest

l7mqbcuq 于 2023-04-29 发布在 Hadoop

关注(0)|答案(1)|浏览(135)

我正在处理超过400万条记录的大数据，我想根据9个变量预测3个标签。我使用了RandomForest，但它需要几个小时，我想知道是否有什么方法可以在我的代码中包含Hadoop来缩短时间。
注意：我使用Kaggle notebook，会话配额为：12小时最大30 g ram最大

hadoop

来源：https://stackoverflow.com/questions/76104308/randomforest-for-big-data

1条答案

按热度按时间

c3frrgcw1#

在使用Hadoop之前，让我们先弄清楚它提供了什么以及你是否需要它。
Hadoop是一个技术栈，提供分布式文件系统（HDFS），分布式处理资源协商器（YARN）和MapReduce框架。
当您希望分布式计算并使用更多资源更快地解决问题时，它非常有用。但是为你的任务创建hadoop集群可能有点大材小用。
你可以使用Spark和RandomForestClassifier。Spark是一个内存分布式计算引擎，对ML算法有很好的支持。
Spark可以与Hadoop一起运行，但这不是一个严格的要求。您也可以在独立模式下运行Spark，也可以使用Mesos或Kubernetes运行。

赞(0）回复(0）举报 2023-04-29

我来回答

hadoop 面向大数据的RandomForest

1条答案

相关问题

热门标签

最新问答