我有一个既有趣又奇怪的问题。
当我用GPU启动停靠容器时,它工作正常,我看到所有的GPU都在停靠中。然而,几个小时或几天后,我不能在Dock中使用GPU。
当我在对接机中做nvidia-smi
时。我看到了这条消息
“无法初始化NVML:未知错误”
然而,在主机中,我看到了所有带有NVIDIA-SMI的GPU。另外,当我重新启动扩展底座机器时。它完全正常工作,并显示所有的图形处理器。
我的推理Docker机器应该一直处于打开状态,并根据服务器请求进行推理。有没有人有同样的问题或解决这个问题的办法?
2条答案
按热度按时间wxclj1h51#
我也犯了同样的错误。我尝试了一下码头的健康检查,作为一种临时解决方案。当nVIDIA-SMI失败时,容器将被标记为不健康,并在willfarrell/autoheal之前重启。
Docker-Compose版本:
Dockerfile版本:
使用自动修复后台进程:
ego6inou2#
我遇到了同样的问题,我只是在容器中运行
screen watch -n 1 nvidia-smi
,现在它连续工作。