我使用impala shell运行了几个大型查询,发现性能令人满意。这些查询通常将100k-1m行写入磁盘。但是,当我使用jdbc以编程方式运行相同的查询时,结果将花费非常长的时间写入磁盘。例如,一个从impala shell执行5分钟的查询在jdbc上最多需要30分钟。
我尝试过hive和cloudera jdbc驱动程序,但是得到了同样糟糕的性能。我试过各种尺寸,但没有任何区别。impala在jdbc上的流式传输基本上很慢吗?或者我可以做些别的事情来加速流式传输吗?
这在cdh 5.9.1上。
1条答案
按热度按时间azpvetkf1#
这是一个客户端问题。我使用curl测试了一个web应用程序,该应用程序正在进行impala查询。从curl切换到用scala代码编写的客户机消除了延迟。