使用pyspark dataframe忽略csv中的字段

koaltpgm 于 2021-05-19 发布在 Spark

关注(0)|答案(1)|浏览(460)

关闭。这个问题需要细节或清晰。它目前不接受答案。
**想改进这个问题吗？**通过编辑这个帖子来添加细节并澄清问题。

两个月前关门了。
改进这个问题
问题陈述：
我有一个csv文件管道，其中有两个字段。
我正在创建一个dataframe，向其中添加新的列，并通过文本来赋值。
现在假设我收到一个包含5个字段的csv文件，我仍然想考虑前两个字段，忽略其他新字段，继续创建一个dataframe并向其中添加新列。
有可能吗。有人能帮我吗。

python DataFrame apache-spark pyspark apache-spark-sql

来源：https://stackoverflow.com/questions/64441885/ignoring-fields-from-csv-using-pyspark-dataframe

1条答案

按热度按时间

ha5z0ras1#

有很多方法可以做到这一点
使用Pandas

import pandas as pd

df = pd.read_csv('path/to/file.csv', usecols=[0, 1], index_col=0)
spark_df = spark_session.createDataFrame(df)

使用RDD

df = spark_session.textFile('path/to/file.csv') \
    .map(lambda row: row.split(",")) \
    .map(lambda row : (row[0], row[1])) \
    .toDF(['col1', 'col2'])

赞(0）回复(0）举报 2021-05-20

我来回答

使用pyspark dataframe忽略csv中的字段

1条答案

相关问题

热门标签

最新问答