使用pyspark dataframe忽略csv中的字段

koaltpgm  于 2021-05-19  发布在  Spark
关注(0)|答案(1)|浏览(460)

关闭。这个问题需要细节或清晰。它目前不接受答案。
**想改进这个问题吗?**通过编辑这个帖子来添加细节并澄清问题。

两个月前关门了。
改进这个问题
问题陈述:
我有一个csv文件管道,其中有两个字段。
我正在创建一个dataframe,向其中添加新的列,并通过文本来赋值。
现在假设我收到一个包含5个字段的csv文件,我仍然想考虑前两个字段,忽略其他新字段,继续创建一个dataframe并向其中添加新列。
有可能吗。有人能帮我吗。

ha5z0ras

ha5z0ras1#

有很多方法可以做到这一点
使用Pandas

import pandas as pd

df = pd.read_csv('path/to/file.csv', usecols=[0, 1], index_col=0)
spark_df = spark_session.createDataFrame(df)

使用RDD

df = spark_session.textFile('path/to/file.csv') \
    .map(lambda row: row.split(",")) \
    .map(lambda row : (row[0], row[1])) \
    .toDF(['col1', 'col2'])

相关问题