助教好:
在嘗試以 SLURM 送出工作時,
會出現
mpiexec: error while loading shared libraries: libnvidia-ml.so.1: cannot open shared object file: No such file or directory
的錯誤,以下是使用的 script 內容:
#!/bin/bash -l
#SBATCH -N 4
#SBATCH --ntasks-per-node=40
#SBATCH --cpus-per-task=1
#SBATCH -J wrf1Dom
#SBATCH -t 0:30:00
#SBATCH --exclusive
#SBATCH -d singleton
#SBATCH -o wrfPrac-%j.out
#SBATCH --account=ACD112218 # Add your account name here
module purge
module load compiler/gcc/7.5.0
module load zlib-1.2.11-t
module load mpich-3.1.4-t
module load hdf5-1.8.21-t
module load pnetcdf-1.12.0-t
module load netcdf-c-4.7.3-t
module list
export OMP_NUM_THREADS=1
# export LD_LIBRARY_PATH=/home/u5051285/wrf/opt/mpich-3.1.4/lib:$LD_LIBRARY_PATH
export MPIR_CVAR_ENABLE_GPU=0
ln -sf namelist.input-VALIDATE namelist.input
/usr/bin/time -p mpiexec -np 160 ./wrf.exe
mkdir VALIDATE
mv rsl.* namelist.input namelist.output VALIDATE
mv wrfo* VALIDATE
ln -sf namelist.input-TIMING namelist.input
/usr/bin/time -p mpiexec -np 160 ./wrf.exe
mkdir TIMING
mv rsl.* namelist.input namelist.output TIMING
針對 libnvidia.so 該 lib,並沒有在其他地方被搜尋到
有嘗試的一個做法是:
export MPIR_CVAR_ENABLE_GPU=0
是根據 mpich.org/static/downloads/4.0.1/mpich-4.0.1-README.txt 中 GPU support 的部分,嘗試關掉 cuda 相關的支援,但沒有解決問題
希望助教能協助指出可能哪邊有錯誤
若有需要,我再將指令寄去助教信箱中給你們參考
謝謝!