如何在rdd pyspark中只求和并过滤字符串值？

hfwmuf9z 于 2021-05-29 发布在 Spark

关注(0)|答案(1)|浏览(462)

我有下面的rdd rdd=sc.parallelize(['a',3,4,2,'d']) 我只想将数字相加，即3+4+2=9作为输出1，并将字符串过滤为输出2（'a'，'b'）

apache-spark pyspark

来源：https://stackoverflow.com/questions/62294623/how-to-sum-only-digits-and-filter-the-string-values-in-rdd-pyspark

1条答案

按热度按时间

ebdffaop1#

可以使用正则表达式过滤和减少结果

import re
rdd=spark.sparkContext.parallelize(['a',3,4,2,'d'])

output1 = rdd.filter(lambda x: re.match('\d+$',str(x))).reduce(lambda x,y:x+y)
[out]: 9

output2 = rdd.filter(lambda x: isinstance(x,str)).collect()
[out]: ['a','d']

赞(0）回复(0）举报 2021-05-29

我来回答

如何在rdd pyspark中只求和并过滤字符串值？

1条答案

相关问题

热门标签

最新问答