執行 WRF 出現套件問題

助教好:
在嘗試以 SLURM 送出工作時,
會出現

mpiexec: error while loading shared libraries: libnvidia-ml.so.1: cannot open shared object file: No such file or directory

的錯誤,以下是使用的 script 內容:

#!/bin/bash -l
#SBATCH -N 4
#SBATCH --ntasks-per-node=40
#SBATCH --cpus-per-task=1
#SBATCH -J wrf1Dom
#SBATCH -t 0:30:00
#SBATCH --exclusive
#SBATCH -d singleton
#SBATCH -o wrfPrac-%j.out
#SBATCH --account=ACD112218  # Add your account name here

module purge
module load compiler/gcc/7.5.0
module load zlib-1.2.11-t
module load mpich-3.1.4-t
module load hdf5-1.8.21-t
module load pnetcdf-1.12.0-t
module load netcdf-c-4.7.3-t

module list

export OMP_NUM_THREADS=1
# export LD_LIBRARY_PATH=/home/u5051285/wrf/opt/mpich-3.1.4/lib:$LD_LIBRARY_PATH
export MPIR_CVAR_ENABLE_GPU=0


ln -sf namelist.input-VALIDATE namelist.input
/usr/bin/time -p mpiexec -np 160 ./wrf.exe
mkdir VALIDATE
mv rsl.* namelist.input namelist.output VALIDATE
mv wrfo* VALIDATE


ln -sf namelist.input-TIMING namelist.input
/usr/bin/time -p mpiexec -np 160 ./wrf.exe
mkdir TIMING
mv rsl.* namelist.input namelist.output TIMING

針對 libnvidia.so 該 lib,並沒有在其他地方被搜尋到

有嘗試的一個做法是:
export MPIR_CVAR_ENABLE_GPU=0
是根據 mpich.org/static/downloads/4.0.1/mpich-4.0.1-README.txt 中 GPU support 的部分,嘗試關掉 cuda 相關的支援,但沒有解決問題
希望助教能協助指出可能哪邊有錯誤
若有需要,我再將指令寄去助教信箱中給你們參考
謝謝!

同學好,

我實在很難想像為什麼會編譯出需要 CUDA library 的程式 OwO

error while loading shared libraries 這個錯誤訊息是由 linker 印出的。在程式啟動前,linker 就要將所有 shared libraries 找到並載入記憶體,才會開始執行程式。因此,沒辦法使用環境變數在 runtime 時避免這個問題,必須要重新編譯。

可以在 configure 的時候加 --without-cuda 這個參數看看

助教好:
謝謝助教回覆,我懷疑是載點不乾淨@@
會再用不同方法測試,謝謝!