impala有自己的执行引擎,还是在hadoop生态系统中的mapr上工作?

nukf8bse  于 2021-06-26  发布在  Impala
关注(0)|答案(2)|浏览(211)

我从来没有机会研究 Impala 。我刚开始读关于 Impala 的书。但我有一个基本的问题,我不清楚关于 Impala 。 Impala 有自己的恶魔,所以它也有自己的执行引擎,或者在mapr或其他执行引擎上工作。提前谢谢

kadbb459

kadbb4591#

是的,impala守护进程使用驻留的可用资源池运行内存中的sql,并由yarn或任何其他资源调度器管理。这是可以调整的。
mapr是一个hadoop发行包——是的,它确实提供了impala作为更大捆绑包的一部分。

mwecs4sa

mwecs4sa2#

MapReduce 是一种以分布式并行模式处理大型数据集的设计模式。 Impala 是一个在ApacheHadoop上运行的开源大规模并行处理(mpp)查询引擎。 Impala 更像仓库吗 Hive 有自己的利弊 Hive .
主要区别 Imapala 以及 mapreduce 是: Impala 不使用 mapreduce . 它是分开运行的 Impala daemon 它拆分查询并并行运行它们,并在最后合并结果集。 Impala 它的大部分操作都在内存中进行,磁盘i/o受到限制。 Impala 使用 hdfs 因为它的存储带来了可靠性和效率。它在内存中缓存尽可能多的查询结果。 Impala 支持新的文件格式,如 parquet ,这是一种列式文件格式。因此,如果您使用这种格式,那么对于大多数时间只访问少数列的查询,它会更快。

相关问题