如何限制aws glue/pyspark写入elasticsearch

w7t8yxp5  于 2021-07-12  发布在  Spark
关注(0)|答案(0)|浏览(170)

我使用下面的代码通过aws glue将pysparkDataframe写入elasticsearch。

df.write.format("org.elasticsearch.spark.sql").\
    mode("overwrite").\
    option("es.resource", "{}/_doc".format(es_index_name)).\
    option("es.nodes", es_node_url).\
    option("es.port", es_node_port).\
    option("es.nodes.wan.only", "true").\
    options(**es_conf).\
    save()

我的问题是,有没有一种方法可以控制glue/pyspark向amazonlasticsearch提交写操作的速度?因为胶水作业无法完成,这是由于大量写入导致的错误引发的。目前,我正试图找到最佳数量的胶水工人产卵和最佳的es配置,这样就不会发生,但我怀疑这种试错的方法是最有效的方式来处理这类问题。提前谢谢。

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题