基于python列表过滤配置单元数据集

6qfn3psc  于 2021-06-27  发布在  Hive
关注(0)|答案(1)|浏览(254)

我对hive和spark还很陌生,但我想做的应该很简单。本质上,我想从python获取一个列表,然后只从配置单元中拉入在该列表中有键的记录。这样地:

my_list=['a','b','c','d']
new_dataset = 
    spark.sql(
    select * 
    from hive_dataset 
    where variable_name in my_list)

我甚至可以在sql语句之后处理它。这样地:

my_list=['a','b','c','d']
new_dataset = 
    spark.sql(
    select * 
    from hive_dataset)

new_dataset=new_dataset(new_dataset[variable_name] in my_list)

我知道这是个很普通的问题,但我该怎么做呢?这有可能吗?

yrwegjxp

yrwegjxp1#

这应该有用-

my_list=['a','b','c','d']

your_filter  = ','.join(["'" +i + "'" for i in my_list])

new_dataset  = spark.sql("SELECT * FROM hive_dataset WHERE variable_name IN ({})".format(your_filter))

相关问题