aws-databricks-spark-数据类型

xbp102n0 于 2021-07-14 发布在 Spark

关注(0)|答案(0)|浏览(155)

我来自一个sql server的世界，我对spark提供的分布式计算的想法很陌生。
我找不到关于在Dataframe中明智地使用数据类型的重要答案。
在rdms世界中使用最小可能的数据类型是至关重要的，因为它比存储带来了巨大的好处，因此可以加快数据操作。
然而，在所有的书和文章中，每个人似乎都完全忽视了这个问题。Spark真的没关系吗？使用smallint（1字节）而不是int（4字节）没有好处吗？char对varchar？
如果您能参考任何涉及不同数据类型的绩效差异的文章、基准和文件，我们将不胜感激。
谢谢您

apache-spark optimization amazon-web-services rdbms

来源：https://stackoverflow.com/questions/67137797/aws-databricks-spark-data-types