在spark中高效读取非常大的rest响应(csv)

8wigbo56 于 2021-05-27 发布在 Spark

关注(0)|答案(0)|浏览(167)

我的任务是将大量数据回填到azure datalake中。不幸的是，数据源是一个restapi，它返回csv数据作为响应体。为了回填这些数据，我应该进行多个restapi调用，并将数据分成块。例如，每次获取日期范围为30天的数据。web服务器一次只能处理2个请求，它收到的任何请求都将被放入队列。返回数据的大小可以在100mb到2gb之间。
理想情况下，我希望并行调用两个restapi请求。将rest响应数据加载到spark dataframe中，然后将其作为parquet文件写入datalake。
我正在考虑如何调用两个执行器，并让每个执行器分配其余调用的一半。我不想在驱动程序节点中读取此数据，因为驱动程序可能没有足够的内存。虽然我不知道怎么做。
请让我知道，如果我在正确的轨道上或你有更好的想法来处理这个任务。

apache-spark azure-data-lake

来源：https://stackoverflow.com/questions/63757687/read-very-large-rest-response-csv-in-spark-efficiently