[Homework] srun指令使用多個nodes時產生問題

你好,我在用srun指令時其他狀況都正常,但只要使用到-N 2這項參數,也就是只要使用多個nodes來跑程式就會出問題。
使用srun -N 2 -n 56 ./mpiTest
但很奇怪的是只使用一個node就不會有問題
如srun -N 1 -n 56 ./mpiTest

下圖為寫的MPI測試程式,只是讓它print hello world。


下圖為error

想請問是哪邊可能出問題。
謝謝!

同學好,

請提供完整的錯誤訊息有助於我們判斷,可以使用 > or 2> 將錯誤訊息導致檔案。

展佑

教練好:
好的,檔案如下,一個是使用srun -n 4 ./mpiTest,另一個是使用srun -N 2 -n 4 ./mpiTest(這個有問題)

對的

錯的

另外想請問一下要怎麼在貼文中上傳檔案?

謝謝。

同學和,請確認你的 salloc 或是 sbatch 有正確請求兩個 node 的資源,可以先使用簡單的 mpirun -N 2 hostname 來 debug,確保能使用多節點的 MPI