你好,我在用srun指令時其他狀況都正常,但只要使用到-N 2這項參數,也就是只要使用多個nodes來跑程式就會出問題。
使用srun -N 2 -n 56 ./mpiTest
但很奇怪的是只使用一個node就不會有問題
如srun -N 1 -n 56 ./mpiTest
下圖為寫的MPI測試程式,只是讓它print hello world。
下圖為error
想請問是哪邊可能出問題。
謝謝!
你好,我在用srun指令時其他狀況都正常,但只要使用到-N 2這項參數,也就是只要使用多個nodes來跑程式就會出問題。
使用srun -N 2 -n 56 ./mpiTest
但很奇怪的是只使用一個node就不會有問題
如srun -N 1 -n 56 ./mpiTest
下圖為寫的MPI測試程式,只是讓它print hello world。
想請問是哪邊可能出問題。
謝謝!
同學好,
請提供完整的錯誤訊息有助於我們判斷,可以使用 >
or 2>
將錯誤訊息導致檔案。
展佑
教練好:
好的,檔案如下,一個是使用srun -n 4 ./mpiTest,另一個是使用srun -N 2 -n 4 ./mpiTest(這個有問題)
對的
錯的
另外想請問一下要怎麼在貼文中上傳檔案?
謝謝。
同學和,請確認你的 salloc 或是 sbatch 有正確請求兩個 node 的資源,可以先使用簡單的 mpirun -N 2 hostname 來 debug,確保能使用多節點的 MPI