recursionerror:比较中超出了最大递归深度'

3qpi33ja 于 2021-05-27 发布在 Spark

关注(0)|答案(1)|浏览(360)

在我的python脚本中，我决定了azuredatalake存储gen2中的目录大小。在我检查一个更大的目录之前，代码运行良好。

import sys
from dbutils import FileInfo
from typing import List

sys.setrecursionlimit(2000)
root_path = "/mnt/datalake/.../"

def discover_size(path: str, verbose: bool = True):
  def loop_path(paths: List[FileInfo], accum_size: float):
    if not paths:
      return accum_size
    else:
      head, tail = paths[0], paths[1:]
      if head.size > 0:
        if verbose:
          accum_size += head.size / 1e6
        return loop_path(tail, accum_size)
      else:
        extended_tail = dbutils.fs.ls(head.path) + tail
        return loop_path(extended_tail, accum_size)

  return loop_path(dbutils.fs.ls(path), 0.0)

discover_size(root_path, verbose=True)

首先请参阅oom（内存不足）问题并添加 sys.setrecursionlimit(2000) .
现在，另一个错误- RecursionError: maximum recursion depth exceeded in comparison 如何克服这个问题。

python apache-spark pyspark databricks python-3.x

来源：https://stackoverflow.com/questions/61890771/recursionerror-maximum-recursion-depth-exceeded-in-comparison

1条答案

按热度按时间

nqwrtyyt1#

的文档 dbutils.fs.ls() 我手头没有databricks环境，但是这样的东西在不使用真正的递归的情况下可能会工作得更好，但是要访问的路径列表。

import dbutils

def discover_size(path: str) -> int:
    total_size = 0
    visited = set()
    to_visit = [path]
    while to_visit:
        path = to_visit.pop(0)
        if path in visited:
            print("Already visited %s..." % path)
            continue
        visited.add(path)
        print(
            f"Visiting %s, size %s so far..." % (path, total_size),
        )
        for info in dbutils.fs.ls(path):
            total_size += info.size
            if info.isDir():
                to_visit.add(info.path)
    return total_size

discover_size("/mnt/datalake/.../", verbose=True)

赞(0）回复(0）举报 2021-05-27

我来回答

recursionerror:比较中超出了最大递归深度'

1条答案

相关问题

热门标签

最新问答