用自定义unix组编写spark数据集

ds97pgxw 于 2021-05-19 发布在 Spark

关注(0)|答案(0)|浏览(274)

在apache spark中，我有一个数据集正在写入磁盘：

var ds = Seq(1, 2, 3).toDS();

ds.write.parquet("/tmp/01/01");

不出所料，这将以Parquet格式在磁盘上写入记录：

vaxaci$ ls -ltr /tmp/01/01/
total 24
drwxr-----  1 vaxaci  hadoop  430 Oct 19 14:12 part-00000-ba320358-7ee3-46dc-b90f-3b9c94fa6503-c000.snappy.parquet
drwxr-----  1 vaxaci  hadoop  430 Oct 19 14:12 part-00001-ba320358-7ee3-46dc-b90f-3b9c94fa6503-c000.snappy.parquet
drwxr-----  1 vaxaci  hadoop  430 Oct 19 14:12 part-00002-ba320358-7ee3-46dc-b90f-3b9c94fa6503-c000.snappy.parquet
drwxr-----  1 vaxaci  hadoop    0 Oct 19 14:12 _SUCCESS

但问题在于它所使用的unix组。目前正在用组名写入 hadoop .
有没有什么方法可以让我以编程的方式 java 最好）把这个组改成别的，比如 friends ?

Java hadoop apache-spark parquet unix

来源：https://stackoverflow.com/questions/64424130/writing-spark-dataset-with-custom-unix-group