ApachePig—想编写(或使用现有的？)udf来读取具有多字符分隔符的文件吗

bvpmtnay 于 2021-06-21 发布在 Pig

关注(0)|答案(1)|浏览(237)

我想在pig中读取一个使用多字符分隔符分隔字段的数据文件（我不需要这样写文件）。所以我的Pig剧本看起来像：

myData = LOAD 'myFile' USING PigStorage(‘~|~’) as (col1:chararray, col2:chararray);

我的问题是pigstorage不支持多字符分隔符。
可能的解决方案有：
现有自定义项。有吗？
基于读取文件的自定义项的工作示例的自定义项。
关于第二点，我看到了大量复制的pig.apache.org示例，但问题是这段代码无法编译（除了明显的语法错误，所有import语句都丢失了，所以我不知道需要导入哪个版本的类！）

udf apache-pig

来源：https://stackoverflow.com/questions/35181714/want-to-write-or-use-an-existing-udf-to-read-a-file-with-a-multi-character-de