从sparkDataframe中提取一系列值

hyrbngr7  于 2021-07-12  发布在  Spark
关注(0)|答案(1)|浏览(368)

我有一个pysparksqlDataframe,我想从中提取一系列值。使用PandasDataframe,我知道我可以通过运行:

coordinates = df[['latitude','longitude']].values

array([[52.375816,  4.964433],
       [52.375816,  4.964433],
       [52.375816,  4.964433],
       ...,
       [52.362133,  4.908233],
       [52.362133,  4.908233],
       [52.362133,  4.908233]], dtype=float32)

在spark我该怎么做?

cuxqih21

cuxqih211#

转换为dataframe并使用问题中显示的方法应该可以完成以下工作:

df[['latitude','longitude']].toPandas().values

或者你可以用

import numpy as np

np.array(df[['latitude', 'longitude']].collect())

相关问题