hadoop 亚马逊电子病历JSON

pu3pd22g  于 2023-03-17  发布在  Hadoop
关注(0)|答案(1)|浏览(106)

我正在使用Amazon EMR Hadoop Hive进行大数据处理。我的日志文件中的当前数据是CSV格式。为了从日志文件中制作表格,我编写了regex表达式来解析数据并存储到外部表的不同列中。我知道SerDe可以用于读取JSON格式的数据,这意味着日志文件的每一行都可以作为JSON对象。如果我的日志文件是JSON格式的,与CSV格式相比,Hadoop性能有什么优势吗?

gajydyqb

gajydyqb1#

如果你可以处理表的输出(你用regexp创建的),为什么还要做其他的处理呢?尽量避免不必要的东西。
我认为这里的主要问题是哪种格式读起来更快。我相信CSV会比JSON提供更快的速度,但不要相信我的话。Hadoop真的不在乎。对他来说,一旦进入内存,所有的都是字节数组。

相关问题