spark配置+emr硬件配置指南

fgw7neuy 于 2021-05-29 发布在 Spark

关注(0)|答案(0)|浏览(266)

我有一个电子病历服务，它执行以下操作1。从s3加载数据（最大5 gb）2。执行某种验证、健全性检查和转换3。加载到ddb表中
现在，我有以下硬件配置（不确定是否适合）“releaselab”：“emr-5.28.0”，“masterinstancetype”：“c5.12xlarge”，“masterinstancecount”：1，“slaveinstancetype”：“c5.12xlarge”，“slaveinstancecount”：3，
定义此spark作业：

'spark-submit',
             '--deploy-mode',
             'cluster',
             '--master',
             'yarn',
             '--num-executors',
             '40',
             '--executor-memory',
             '20G',
             '--driver-memory',
             '20G',
             '--executor-cores',
             '5',
             '--driver-cores',
             '5',
             '--conf',
             'spark.driver.maxResultSize=3g',
             '--conf',
             'spark.driver.userClassPathFirst=true',
             '--conf',
             'spark.yarn.maxAppAttempts=1',
             '--conf',
             'spark.sql.shuffle.partitions=400',
             '--conf',
             'spark.default.parallelism=2000',
             '--class',
             'com.amazon.pdldataloaderemr.ControlFlowProcess',

请让我知道如果1。对于硬件2，spark属性是正确的。硬件是否足够好或需要减少更多？

apache-spark apache-spark-sql amazon-emr

来源：https://stackoverflow.com/questions/62466208/guidance-on-spark-configuration-emr-hardware-configuration