如何为分区键定义特定的spark节点？

8wigbo56 于 2021-07-09 发布在 Spark

关注(0)|答案(0)|浏览(217)

我需要在异构集群中运行数据集的相似性连接算法。
在程序的第一步，为数据集的记录分配签名，并将具有相同签名的记录发送到相同的处理节点。
没有签名的集合对不能相似。因此，一种直观的方法是使用签名作为分区键，以确定将记录发送到哪个worker。因此，只有具有共同签名的对被发送到同一工作者，避免了不必要的数据传输和相似性评估。
但是，我需要确保将具有许多记录的签名发送给具有更好处理能力的工作者，例如gpu。那么，如何为分区键定义一个特定的spark节点呢？

yarn apache-spark spark-streaming

来源：https://stackoverflow.com/questions/66847836/how-to-define-a-specific-spark-node-to-a-partition-key