在pyspark中如何计数?

qv7cva1a  于 2021-07-15  发布在  Hadoop
关注(0)|答案(2)|浏览(387)

关闭。这个问题需要更加突出重点。它目前不接受答案。
**想改进这个问题吗?**通过编辑这篇文章更新这个问题,使它只关注一个问题。

4个月前关门了。
改进这个问题
我有一大堆头衔。我要计算整个数据集中的每个标题。例如:

`title`

   A
   b
   A
   c
   c
   c

输出:

title fre
     A   2
     b   1
     c   3
zzwlnbp8

zzwlnbp81#

你可以
groupBy title 然后 count :

import pyspark.sql.functions as f
df.groupBy('title').agg(f.count('*').alias('count')).show()
+-----+-----+
|title|count|
+-----+-----+
|    A|    2|
|    c|    3|
|    b|    1|
+-----+-----+

或者更简洁地说:

df.groupBy('title').count().show()

+-----+-----+
|title|count|
+-----+-----+
|    A|    2|
|    c|    3|
|    b|    1|
+-----+-----+
1aaf6o9v

1aaf6o9v2#

嗨,你能做到的

import pandas as pd
 title=["A","b","A","c","c","c"]
 pd.Series(title).value_counts()

相关问题