json—如何使用spark将avro、协议缓冲区和节俭写入hbase

wooyq4lh 于 2021-07-13 发布在 Spark

关注(0)|答案(0)|浏览(160)

我是新来的，我做了很多研究，但都没有结果。
关于如何使用avro、protocolbuffer和thrift三种方法将数据存储到hbase，是否有分步指南？
我想存储到hbase的示例数据是保存在 test.json :

{
    "memberId": "Test0001",
    "type": "TestType"
    "params": {"field1":"testField","field2":"testField2"}
}

我知道将json存储到spark中的hbase看起来是这样的：

val table = conn.getBufferedMutator(TableName.valueOf(tableName))
val memberId = "Test0001"
val put = new Put(SLUtils.strToRowKey(memberId))

// Let's say test.json has been processed via session.read.json(test.json).rdd, 
// so we have a json string called `eventPayload: String` that looks exactly as test.json

table.mutate(put.addColumn(family = Bytes.toBytes("cf"), qualifier = Bytes.toBytes("q"), value=Bytes.toBytes(eventPayload)))
table.flush()
table.close()

所以我的问题是，有没有一个类似的代码，我可以作为一个指南，读取相同的test.json，将其转换为avro，并将其写入（或放入）hbase？关于节俭和协议缓冲区的问题也一样。
如果不清楚，请在评论部分告诉我。谢谢！

avro JSON apache-spark protocol-buffers thrift

来源：https://stackoverflow.com/questions/66344475/how-to-write-avro-protocol-buffer-and-thrift-to-hbase-using-spark