pyspark—使用spark逐位比较Dataframe中的两列

p4rjhz4m  于 2021-05-19  发布在  Spark
关注(0)|答案(1)|浏览(604)
df1 = spark.createDataFrame([
    [123, 123],
    [111, 111],
    [124, 125],
    [111, 333],
    [123, 223],
    [111, 211]
  ],['col1','col2'])

我需要比较两列并使用pyspark识别两列之间不匹配的位数

tv6aics1

tv6aics11#

检查以下代码。

adf.printSchema()
root
 |-- col1: integer (nullable = false)
 |-- col2: integer (nullable = false)

adf.selectExpr("col1","col2","(col1 == col2) as compared").show()
+----+----+--------+
|col1|col2|compared|
+----+----+--------+
| 123| 123|    true|
| 111| 111|    true|
| 124| 125|   false|
| 111| 333|   false|
| 123| 223|   false|
| 111| 211|   false|
+----+----+--------+

相关问题