如果不使用map reduce，Hive3上的Hiveorc acid需要tez吗？

igetnqfo 于 2021-05-27 发布在 Hadoop

关注(0)|答案(1)|浏览(313)

我的理解是，在hive3中，使用merge的hiveorc acid表至少需要tez作为底层执行引擎，如果没有使用map reduce，或者使用用于hive的spark引擎。事实上，我不相信Hive合并，更新，删除工作与Spark引擎。
但从文件和各种更新，我不能确认这些，因此这篇文章。似乎很难就这个主题写一篇连贯的散文，而我远离了一团。
以及https://docs.microsoft.com/en-us/azure/hdinsight/hdinsight-version-release 声明完整的事务功能我无法遵循，因为我不知道spark可以更新、删除hive orc acid（尚未）：
ApacheSpark
apachespark通过hivewarehouse连接器获得可更新的表和acid事务。配置单元仓库连接器允许您将配置单元事务表注册为spark中的外部表，以访问完整的事务功能。以前的版本只支持表分区操作。hive warehouse connector还支持流式Dataframe，用于从spark向事务和流式hive表进行流式读写。
spark执行器可以直接连接到hive llap守护进程，以事务方式检索和更新数据，从而允许hive保持对数据的控制。
hdinsight 4.0上的apache spark支持以下场景：
在用于报告的相同事务表上运行机器学习模型训练。使用acid事务将sparkml中的列安全地添加到配置单元表中。在配置单元流表的更改源上运行spark流作业。直接从spark结构化流作业创建orc文件。您不再需要担心意外地试图直接从spark访问配置单元事务表，从而导致不一致的结果、重复的数据或数据损坏。在hdinsight 4.0中，spark表和hive表保存在单独的元存储中。使用配置单元数据仓库连接器将配置单元事务表显式注册为spark外部表。

hadoop Hive apache-spark orc acid

来源：https://stackoverflow.com/questions/59178519/does-hive-orc-acid-on-hive-3-require-tez-if-not-using-map-reduce

1条答案

按热度按时间

cigdeys31#

上面粗体斜体的陈述是不正确的。
https://issues.apache.org/jira/browse/spark-15348 明确指出，Spark不允许Hive或酸处理。
mr正在各种云平台上消失，而tez现在是默认引擎，所以sqoop和hive orc acid使用它，因此至少需要tez。
注：我只问了这个问题，因为在我上一次的作业中，这个讨论是从“楼上”的人那里提出来的。

赞(0）回复(0）举报 2021-05-27

我来回答

如果不使用map reduce，Hive3上的Hiveorc acid需要tez吗？

1条答案

相关问题

热门标签

最新问答