如何使用一系列Map函数向rdd转换提供一个值列表作为参数?

68de4m5k  于 2021-05-24  发布在  Spark
关注(0)|答案(0)|浏览(208)

我有一个Parquet文件列表,其中有一些文本行作为示例。我还有另外一个要并行搜索的值列表。下面是我想运行的代码,在这里我读取文件,进行rdd转换,然后Map每行文本,创建一个key:value pair 结果是按某个值过滤结果。然后,我想在“some \u values”列表的每个元素上并行运行一个并行函数“search \u for \u something”。我做sparkcontext.parallelize(一些值)然后做别的吗?如有任何建议,将不胜感激

list of some_values = [s1,s2,s3...sn]

results = spark.read.parquet(input_files) \
            .rdd.map(lambda line_of_text: key_value(line_of_text)) \
            .filter(lambda line_of_text: line_of_text.contains(some_value)) \
            .map(lambda line_of_text: search_for_something(one item in the list of some_values, s)) \
            .groupByKey().collect()

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题