使用kafka connect的多个配置单元分区

vmpqdwk3 于 2021-05-29 发布在 Hadoop

关注(0)|答案(1)|浏览(299)

在这个过程中，我一直在尝试使用kafka connect将数据流传输到hive集成打开的hdfs中。
我的用例要求我使用“fieldpartioner”作为partitioner类。
我的问题是，我无法获得多个分区。
例子：
我的示例json

{
  "_id": "582d666ff6e02edad83cae28",
  "index": "ENAUT",
  "mydate": "03-01-2016",
  "hour": 120000,
  "balance": "$2,705.80"
}

我想在'mydate'和'hour'的基础上进行分区
我试了以下方法

name=hdfs-sink
connector.class=io.confluent.connect.hdfs.HdfsSinkConnector
tasks.max=1
topics=fieldPartition_test_hdfs
hdfs.url=hdfs://quickstart.cloudera:8020
flush.size=3

partitioner.class=io.confluent.connect.hdfs.partitioner.FieldPartitioner
partition.field.name={mydate,hour}

locale=en
timezone=GMT

hive.database=weblogs
hive.integration=true
hive.metastore.uris=thrift://quickstart.cloudera:9083
schema.compatibility=BACKWARD

还尝试将partition.field.name指定为

partition.field.name={'mydate','hour'}

和

partition.field.name=mydate,hour

还有更多这样的组合
在此问题上的任何帮助都将不胜感激
谢谢。

hadoop Hive apache-kafka apache-kafka-connect confluent-platform

来源：https://stackoverflow.com/questions/40671676/multiple-hive-partitions-with-kafka-connect

1条答案

按热度按时间

我尝试了各种可能的方法，后来开始挖掘源代码。
密码在这里！
最后一次提交到这里的文件，显示“3个月前恢复‘支持多分区字段’”
请告诉我你们有没有别的办法。

赞(0）回复(0）举报 2021-05-30

相关问题

微信公众号

热门标签

Java query python Node 开发语言 request Util 数据库 Table 后端算法 Logger Message Element Parser

最新问答

Python pillow/PIL无法识别对象“imagedraw”的属性“textsize”
回答(3) 发布于 5个月前
python-3.x ImportError：无法从“typing_extensions”导入名称“deprecated”
回答(2) 发布于 5个月前
python-3.x 我正尝试使用密码学对字典进行加密
回答(1) 发布于 5个月前
在Python的IDLE中导入audiolazy的问题
回答(1) 发布于 5个月前
如何将Python程序中的数据添加到Markdown？
回答(2) 发布于 5个月前