如何使用一系列Map函数向rdd转换提供一个值列表作为参数？

68de4m5k 于 2021-05-24 发布在 Spark

关注(0)|答案(0)|浏览(208)

我有一个Parquet文件列表，其中有一些文本行作为示例。我还有另外一个要并行搜索的值列表。下面是我想运行的代码，在这里我读取文件，进行rdd转换，然后Map每行文本，创建一个key:value pair 结果是按某个值过滤结果。然后，我想在“some \u values”列表的每个元素上并行运行一个并行函数“search \u for \u something”。我做sparkcontext.parallelize（一些值）然后做别的吗？如有任何建议，将不胜感激

list of some_values = [s1,s2,s3...sn]

results = spark.read.parquet(input_files) \
            .rdd.map(lambda line_of_text: key_value(line_of_text)) \
            .filter(lambda line_of_text: line_of_text.contains(some_value)) \
            .map(lambda line_of_text: search_for_something(one item in the list of some_values, s)) \
            .groupByKey().collect()

apache-spark pyspark

来源：https://stackoverflow.com/questions/64130494/how-can-i-supply-a-list-of-values-as-a-parameter-to-rdd-transformations-with-a-c