spark配置+emr硬件配置指南

fgw7neuy  于 2021-05-29  发布在  Spark
关注(0)|答案(0)|浏览(266)

我有一个电子病历服务,它执行以下操作1。从s3加载数据(最大5 gb)2。执行某种验证、健全性检查和转换3。加载到ddb表中
现在,我有以下硬件配置(不确定是否适合)“releaselab”:“emr-5.28.0”,“masterinstancetype”:“c5.12xlarge”,“masterinstancecount”:1,“slaveinstancetype”:“c5.12xlarge”,“slaveinstancecount”:3,
定义此spark作业:

'spark-submit',
             '--deploy-mode',
             'cluster',
             '--master',
             'yarn',
             '--num-executors',
             '40',
             '--executor-memory',
             '20G',
             '--driver-memory',
             '20G',
             '--executor-cores',
             '5',
             '--driver-cores',
             '5',
             '--conf',
             'spark.driver.maxResultSize=3g',
             '--conf',
             'spark.driver.userClassPathFirst=true',
             '--conf',
             'spark.yarn.maxAppAttempts=1',
             '--conf',
             'spark.sql.shuffle.partitions=400',
             '--conf',
             'spark.default.parallelism=2000',
             '--class',
             'com.amazon.pdldataloaderemr.ControlFlowProcess',

请让我知道如果1。对于硬件2,spark属性是正确的。硬件是否足够好或需要减少更多?

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题