配置单元分区表具有以分区日期为文件夹的文件夹结构。我已经探索过将外部分区表直接加载到bigquery,这是可能的。
我想知道的是,这个功能是否可以与 dataflow
因为我将要运行一些特性转换和使用 dataflow
在将数据加载到 bigquery
. 我发现,如果我将分区日期添加为一列,那么分区是可能的,但我正在寻找一种直接方法,在转换过程中不添加列,而是在将数据加载到bigquery时直接添加列。
这样的事可能吗?
配置单元分区表具有以分区日期为文件夹的文件夹结构。我已经探索过将外部分区表直接加载到bigquery,这是可能的。
我想知道的是,这个功能是否可以与 dataflow
因为我将要运行一些特性转换和使用 dataflow
在将数据加载到 bigquery
. 我发现,如果我将分区日期添加为一列,那么分区是可能的,但我正在寻找一种直接方法,在转换过程中不添加列,而是在将数据加载到bigquery时直接添加列。
这样的事可能吗?
1条答案
按热度按时间yh2wf1be1#
hive分区是bigquery的测试版功能,于2019年10月31日发布。dataflow支持的apache beam sdk的最新版本是2.16.0,于2019年10月7日发布。目前,java和python都不直接支持这个特性。因此,如果您想从dataflow使用它,也许可以尝试直接调用bigqueryapi