docker 실행 후 random 시간이 흐르고 나면 "Failed to initialize NVML: Unknown Error"가 나는 현상

 Possible fix list

https://github.com/NVIDIA/nvidia-docker/issues/1671

https://gist.github.com/gengwg/55b3eb2bc22bcbd484fccbc0978484fc

https://bbs.archlinux.org/viewtopic.php?id=266915

https://github.com/NVIDIA/nvidia-docker/issues/1447




1) 문제 재구현: 아래 solution으로 해결 가능한 문제인지 진단

    - docker container 재시작 후 nvidia-smi 정상 동작 확인

    - 호스트 측 터미널에 "systemctl daemon-reload" 입력후 container 안에서 nvidia-smi error 발생 확인

2) 해결 방법: docker run 인자 수정

    - /dev/ 하위에 nvidia가 붙은 모든 instance들을 인자에 포함시켜 전달

    - 예시: docker run -it --name detr --gpus all -v /home/work/Desktop/:/data --shm-size 128G -p 11022:22 -p 11006:6006 --device /dev/nvidia0:/dev/nvidia0 --device /dev/nvidia1:/dev/nvidia1 --device /dev/nvidia2:/dev/nvidia2 --device /dev/nvidia3:/dev/nvidia3 --device /dev/nvidia4:/dev/nvidia4 --device /dev/nvidia5:/dev/nvidia5 --device /dev/nvidia6:/dev/nvidia6 --device /dev/nvidia7:/dev/nvidia7 --device /dev/nvidia-caps/ --device /dev/nvidiactl --device /dev/nvidia-modeset --device /dev/nvidia-uvm --device /dev/nvidia-uvm-tools da_ddetr:latest

댓글

이 블로그의 인기 게시물

sklearn tsne + matplotlib scatter

Implementation of Focal Loss using Pytorch