在PySpark框架中知道一个列是否有常量值的最快方法

rqcrx0a6 于 4个月前发布在 Spark

关注(0)|答案(2)|浏览(89)

我想AssertPySpark DataFrame列的值在所有行中是否相同。

+----------+----------+
|    A     |    B     |
+----------+----------+
|       2.0|       0.0|
|       0.0|       0.0|
|       1.0|       0.0|
|       1.0|       0.0|
|       0.0|       0.0|
|       1.0|       0.0|
|       0.0|       0.0|
+----------+----------+

字符串
列“A”不是常数，而“B”是常数。
我尝试了两种方法：
1-检查stddev = 0：

df.select(stddev(col('B'))).collect()

型
2-获取不同的值：

df.select("B").distinct().collect()

型
第一个方法需要16分钟才能完成，第二个需要12分钟，但这只是一次执行，所以我不确定是否有意义。
在PySpark中检查它的最佳方法是什么？

pyspark

来源：https://stackoverflow.com/questions/52113821/fastest-way-to-know-if-a-column-has-a-constant-value-in-a-pyspark-dataframe

2条答案

按热度按时间

o8x7eapl1#

stdev是非常复杂的操作，distinct也是。如果你的任务是检查特定列中的所有值是否等于某个特定变量，我会尝试像这样做。
df.filter(col('B') != your_value).count() == 0个
有可能你不知道该列的值。但这很容易解决，只需检索头（任何）值并与之进行比较：
your_value = df.select('B').first()[0]个

赞(0）回复(0）举报 4个月前

tv6aics12#

我认为vvg的方法存在两个问题。

南虫：

如果your_value是nan，则比较结果为nan，nan通过filter转换为false，导致第一个值为nan的列被视为常数。

效率低下：

计数和检查是否为零似乎是一个非常低效的方法来做any。考虑在计数之前调用limit，take或head。

总计：

first_value = df.select('B').filter(~F.col('B').isNull()).first()[0]
df.filter(col('B') != first_value).limit(1).count() == 0

字符串

赞(0）回复(0）举报 4个月前

我来回答

在PySpark框架中知道一个列是否有常量值的最快方法

2条答案

南虫：

效率低下：

总计：

相关问题

热门标签

最新问答