pyspark.sql.functions.hash中使用了什么哈希算法?

7z5jn7bk  于 2021-07-14  发布在  Spark
关注(0)|答案(1)|浏览(709)

我有一个关于pyspark散列函数的简单问题。
我已经检查过,在scala中,spark使用基于spark中哈希函数的hash。
我想知道pyspark中哈希函数的具体算法是什么(https://spark.apache.org/docs/latest/api/python/_modules/pyspark/sql/functions.html#hash).
有人能回答这个问题吗?我还想知道pyspark哈希函数中使用的算法的代码。

z2acfund

z2acfund1#

pyspark只是scala-spark代码的 Package 器。我相信它使用的哈希函数与scala spark中的哈希函数相同。
在源代码的链接中,可以看到它调用 sc._jvm.functions.hash ,它本质上指向scala源代码中的等效函数(在“jvm”中)。

相关问题