配置单元数据流问题

c2e8gylq 于 2021-06-26 发布在 Hive

关注(0)|答案(1)|浏览(212)

我在hdinsights/azurespark2.2集群上使用hive，通过ambari提交查询，数据存储在azuredatalake的外部表中。暂存表和目标表是分区的。
我今天一直在忙着在Hive里加载数据。数据流来自.gz文件->暂存表->目标表。这是一个增量加载，从目标到目标的左连接以保留旧数据，然后将所有数据与整个集合的新数据合并。
我注意到一些行为对我来说很奇怪，希望能收集更多的见解。
观察1：在运行完脚本之后，我注意到新数据不在staging中，也不在原始table/gz文件的目标中。我可没料到会有这样的工会。
观察结果2：我做了一个步骤，从.gz文件/表手动将数据加载到我的staging表中。我对它进行了简单的计数。它返回39k，太好了。我试着运行一个selectwhere val=xyz，它返回记录，再次很棒。我在那个表达式上加了一个count（），开始返回0条记录。
抱歉，如果我的想法混乱，但想知道是否有人谁经历过类似的事件，以及如何克服它们。如果需要澄清，请告诉我。

Hive azure-hdinsight azure-data-lake

来源：https://stackoverflow.com/questions/51092612/hive-data-flow-issues