仅将hbase/phoenix表的一部分作为spark数据从

6tr1vspr 于 2021-06-09 发布在 Hbase

关注(0)|答案(0)|浏览(214)

我在spark中使用以下代码将hbase/phoenix表的指定列加载到sparkDataframe中。我可以指定要加载的列，但可以指定要加载的行吗？还是必须加载所有行？

import org.apache.hadoop.conf.Configuration
import org.apache.spark.SparkContext
import org.apache.spark.sql.SQLContext
import org.apache.phoenix.spark._

sc.stop()

val sc = new SparkContext("local", "phoenix-test")
val df = sqlContext.phoenixTableAsDataFrame(
     "TABLENAME", Array("ROWKEY", "CF.COL1","CF.COL2","CF.COL3"), conf = configuration
     )

hbase phoenix apache-spark amazon-emr

来源：https://stackoverflow.com/questions/56799182/load-only-part-of-hbase-phoenix-table-as-spark-datafrom