sql查询在azuredatabricks中花费的时间太长

dnph8jn4 于 2021-05-27 发布在 Spark

关注(0)|答案(1)|浏览(439)

我想使用azuredatabricks在azuresql托管示例中的db上执行sql查询。我已连接到数据库使用Spark连接器。

import com.microsoft.azure.sqldb.spark.config.Config
import com.microsoft.azure.sqldb.spark.connect._

val config = Config(Map(
  "url"          -> "mysqlserver.database.windows.net",
  "databaseName" -> "MyDatabase",
  "queryCustom"  -> "SELECT TOP 100 * FROM dbo.Clients WHERE PostalCode = 98074" //Sql query
  "user"         -> "username",
  "password"     -> "*********",
))

//Read all data in table dbo.Clients
val collection = sqlContext.read.sqlDB(config)
collection.show()

我使用上面的方法来获取数据（示例来自msft doc）。我的table尺寸超过10米。我的问题是databricks如何处理这里的查询？
下面是文档：spark主节点连接到sql数据库或sql server中的数据库，并从特定表或使用特定sql查询加载数据。spark主节点将数据分发给工作节点进行转换。工作节点连接到连接到sql数据库和sql server的数据库，并将数据写入数据库。用户可以选择使用逐行插入或批量插入。
它表示主节点获取数据，然后将工作分发给工作节点。在上面的代码中，当获取数据时，如果查询本身很复杂并且需要时间怎么办？它是否将工作分散到工作节点？或者，我必须先获取表数据，然后运行sql查询来获得结果。你建议用哪种方法？

apache-spark databricks azure-databricks azure-sql-database

来源：https://stackoverflow.com/questions/62827635/sql-query-taking-too-long-in-azure-databricks

1条答案

按热度按时间

bvuwiixz1#

因此，使用上述方法使用单个jdbc连接将表拉入spark环境。如果您想在查询中使用push-down predicate ，那么可以这样使用。

val pushdown_query = "(select * from employees where emp_no < 10008) emp_alias"
val df = spark.read.jdbc(url=jdbcUrl, table=pushdown_query, 
properties=connectionProperties)
display(df)

如果要提高性能，就需要在读取时管理并行性。可以基于数据集的列值提供拆分边界。
这些选项指定读取时的并行性。如果指定了任何选项，则必须全部指定这些选项。lowerbound和upperbound决定分区步长，但不过滤表中的行。因此，spark将分区并返回表中的所有行。
下面的示例使用columnname、lowerbound、upperbound和numpartitions参数在emp\u no列上的执行器之间拆分读取的表。

val df = (spark.read.jdbc(url=jdbcUrl,
    table="employees",
    columnName="emp_no",
    lowerBound=1L,
    upperBound=100000L,
    numPartitions=100,
    connectionProperties=connectionProperties))
display(df)

有关详细信息，请使用此链接

赞(0）回复(0）举报 2021-05-27

我来回答

sql查询在azuredatabricks中花费的时间太长

1条答案

相关问题

热门标签

最新问答