我有一个Parquet文件列表,其中有一些文本行作为示例。我还有另外一个要并行搜索的值列表。下面是我想运行的代码,在这里我读取文件,进行rdd转换,然后Map每行文本,创建一个key:value pair 结果是按某个值过滤结果。然后,我想在“some \u values”列表的每个元素上并行运行一个并行函数“search \u for \u something”。我做sparkcontext.parallelize(一些值)然后做别的吗?如有任何建议,将不胜感激
list of some_values = [s1,s2,s3...sn]
results = spark.read.parquet(input_files) \
.rdd.map(lambda line_of_text: key_value(line_of_text)) \
.filter(lambda line_of_text: line_of_text.contains(some_value)) \
.map(lambda line_of_text: search_for_something(one item in the list of some_values, s)) \
.groupByKey().collect()
暂无答案!
目前还没有任何答案,快来回答吧!