如何使用spark hadoopfile方法使用值类型文本的自定义输入格式？

soat7uwm 于 2021-05-29 发布在 Hadoop

关注(0)|答案(1)|浏览(450)

如何使用spark hadoopfile方法使用值类型文本的自定义输入格式？例如 OmnitureDataFileInputFormat 用于处理omniture click流数据？

来源：https://stackoverflow.com/questions/56127098/how-to-use-spark-hadoopfile-method-to-use-custom-input-format-with-value-type-te

1条答案

按热度按时间

jei2mxaa1#

import org.rassee.omniture.hadoop.mapred.OmnitureDataFileInputFormat
import java.nio.charset.StandardCharsets
import org.apache.hadoop.io.{LongWritable, Text}
import org.apache.hadoop.mapred.InputFormat

val rddLines: RDD[String] =
  sparkSession.sparkContext.hadoopFile(
    path = path,
    inputFormatClass = classOf[OmnitureDataFileInputFormat],
    keyClass = classOf[LongWritable],
    valueClass = classOf[Text]
  )
  .map(_._2.copyBytes()).map(new String(_, StandardCharsets.UTF_8))

赞(0）回复(0）举报 2021-05-29

我来回答

如何使用spark hadoopfile方法使用值类型文本的自定义输入格式？

1条答案

相关问题

热门标签

最新问答