aws-databricks-spark-数据类型

xbp102n0  于 2021-07-14  发布在  Spark
关注(0)|答案(0)|浏览(155)

我来自一个sql server的世界,我对spark提供的分布式计算的想法很陌生。
我找不到关于在Dataframe中明智地使用数据类型的重要答案。
在rdms世界中使用最小可能的数据类型是至关重要的,因为它比存储带来了巨大的好处,因此可以加快数据操作。
然而,在所有的书和文章中,每个人似乎都完全忽视了这个问题。Spark真的没关系吗?使用smallint(1字节)而不是int(4字节)没有好处吗?char对varchar?
如果您能参考任何涉及不同数据类型的绩效差异的文章、基准和文件,我们将不胜感激。
谢谢您

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题