我有一个电子病历服务,它执行以下操作1。从s3加载数据(最大5 gb)2。执行某种验证、健全性检查和转换3。加载到ddb表中
现在,我有以下硬件配置(不确定是否适合)“releaselab”:“emr-5.28.0”,“masterinstancetype”:“c5.12xlarge”,“masterinstancecount”:1,“slaveinstancetype”:“c5.12xlarge”,“slaveinstancecount”:3,
定义此spark作业:
'spark-submit',
'--deploy-mode',
'cluster',
'--master',
'yarn',
'--num-executors',
'40',
'--executor-memory',
'20G',
'--driver-memory',
'20G',
'--executor-cores',
'5',
'--driver-cores',
'5',
'--conf',
'spark.driver.maxResultSize=3g',
'--conf',
'spark.driver.userClassPathFirst=true',
'--conf',
'spark.yarn.maxAppAttempts=1',
'--conf',
'spark.sql.shuffle.partitions=400',
'--conf',
'spark.default.parallelism=2000',
'--class',
'com.amazon.pdldataloaderemr.ControlFlowProcess',
请让我知道如果1。对于硬件2,spark属性是正确的。硬件是否足够好或需要减少更多?
暂无答案!
目前还没有任何答案,快来回答吧!