docker 실행 후 random 시간이 흐르고 나면 "Failed to initialize NVML: Unknown Error"가 나는 현상
Possible fix list
https://github.com/NVIDIA/nvidia-docker/issues/1671
https://gist.github.com/gengwg/55b3eb2bc22bcbd484fccbc0978484fc
https://bbs.archlinux.org/viewtopic.php?id=266915
https://github.com/NVIDIA/nvidia-docker/issues/1447
1) 문제 재구현: 아래 solution으로 해결 가능한 문제인지 진단
- docker container 재시작 후 nvidia-smi 정상 동작 확인
- 호스트 측 터미널에 "systemctl daemon-reload" 입력후 container 안에서 nvidia-smi error 발생 확인
2) 해결 방법: docker run 인자 수정
- /dev/ 하위에 nvidia가 붙은 모든 instance들을 인자에 포함시켜 전달
- 예시: docker run -it --name detr --gpus all -v /home/work/Desktop/:/data --shm-size 128G -p 11022:22 -p 11006:6006 --device /dev/nvidia0:/dev/nvidia0 --device /dev/nvidia1:/dev/nvidia1 --device /dev/nvidia2:/dev/nvidia2 --device /dev/nvidia3:/dev/nvidia3 --device /dev/nvidia4:/dev/nvidia4 --device /dev/nvidia5:/dev/nvidia5 --device /dev/nvidia6:/dev/nvidia6 --device /dev/nvidia7:/dev/nvidia7 --device /dev/nvidia-caps/ --device /dev/nvidiactl --device /dev/nvidia-modeset --device /dev/nvidia-uvm --device /dev/nvidia-uvm-tools da_ddetr:latest
댓글
댓글 쓰기