Linux系統(tǒng)上安裝slurm來(lái)監(jiān)控網(wǎng)絡(luò)帶寬和控制節(jié)點(diǎn)

SLURM 是一個(gè)類似 Sun Grid Engine (SGE) 的開(kāi)源分布式資源管理軟件,用于超級(jí)計(jì)算機(jī)和大型計(jì)算節(jié)點(diǎn)集群,可高度伸縮和容錯(cuò)。SUN 被賣給 Oracle 后,好用的 SGE 變成 Oracle Grid Engine 并且從 6.2u6 版本開(kāi)始成為商業(yè)軟件了(可以免費(fèi)使用90天),所以我們不得不另尋其他的開(kāi)源替代方案,SLURM 是上次在德班高性能會(huì)議的時(shí)候一位陌生人介紹的,聽(tīng)上去不錯(cuò)。
SLURM 通過(guò)一對(duì)冗余集群控制節(jié)點(diǎn)(冗余是可選的)來(lái)管理集群計(jì)算節(jié)點(diǎn),是由一個(gè)名為 slurmctld 的管理守護(hù)程序?qū)崿F(xiàn)的,slurmctld 提供了對(duì)計(jì)算資源的監(jiān)視、分配和管理,并將進(jìn)入的作業(yè)序列映射和分發(fā)到各個(gè)計(jì)算節(jié)點(diǎn)上。每個(gè)計(jì)算節(jié)點(diǎn)也有一個(gè)守護(hù)程序 slurmd,slurmd 管理在其上運(yùn)行的節(jié)點(diǎn),監(jiān)視節(jié)點(diǎn)上運(yùn)行的任務(wù)、接受來(lái)自控制節(jié)點(diǎn)的請(qǐng)求和工作、將工作映射到節(jié)點(diǎn)內(nèi)部等等。圖示如下:
監(jiān)控帶寬
$ apt-get install slurm
它會(huì)用字符來(lái)顯示文本圖形。
例如:
$ slurm -i <interface>
$ slurm -i eth1

選項(xiàng)
按 l 顯示 lx/tx 指示燈.
按 c 切換到經(jīng)典模式.
按 r 刷新屏幕.
按 q 退出.
控制節(jié)點(diǎn)
在控制節(jié)點(diǎn)和計(jì)算結(jié)點(diǎn)分別安裝 slurm 包,這個(gè)包里面既含有控制節(jié)點(diǎn)需要的 slurmctld 也含有計(jì)算結(jié)點(diǎn)需要的 slurmd:
# apt-get install slurm-llnl
控制節(jié)點(diǎn)和計(jì)算結(jié)點(diǎn)之間需要通信,通信就需要認(rèn)證,slurm 支持兩種認(rèn)證方式:Brent Chun’s 的 authd 和 LLNL 的 MUNGE,MUNGE 是專為高性能集群計(jì)算打造的,這里我們選用 MUNGE,生成 key 后啟動(dòng) munge 認(rèn)證服務(wù):
# /usr/sbin/create-munge-key
Generating a pseudo-random key using /dev/urandom completed.
# /etc/init.d/munge start
使用 SLURM Version 2.3 Configuration Tool 在線配置工具生成配置文件,然后把配置文件拷貝控制節(jié)點(diǎn)以及各個(gè)計(jì)算結(jié)點(diǎn)的 /etc/slurm-llnl/slurm.conf(是的,控制節(jié)點(diǎn)和計(jì)算結(jié)點(diǎn)使用同一個(gè)配置文件)。
有了配置文件和啟動(dòng)了 munge 服務(wù)后就可以在控制節(jié)點(diǎn)啟動(dòng) slurmctld 服務(wù)了:
# /etc/init.d/slurm-llnl start
* Starting slurm central management daemon slurmctld [ OK ]
把控制節(jié)點(diǎn)生成的 munge.key 拷貝到各個(gè)計(jì)算結(jié)點(diǎn):
# scp /etc/munge/munge.key ubuntu@slurm01:/etc/munge/
登陸計(jì)算節(jié)點(diǎn)后啟動(dòng) munge 服務(wù)(注意需要改變 munge.key 的 owner 和 group 為 munge,否則會(huì)啟動(dòng)失敗)和 slurmd 服務(wù):
# ssh ubuntu@slurm01
# chown munge:munge munge.key
# /etc/init.d/munge start
* Starting MUNGE munged [ OK ]
# slurmd
在控制節(jié)點(diǎn)上(slurm00)測(cè)試一下是否順利連接到計(jì)算結(jié)點(diǎn)(slurm01),并且簡(jiǎn)單運(yùn)行一個(gè)程序 /bin/hostname 看看效果吧:
# sinfo
PARTITION AVAIL TIMELIMIT NODES STATE NODELIST
debug* up infinite 1 idle slurm01
# srun -N1 /bin/hostname
slurm01
相關(guān)文章
Fedora Linux 42 穩(wěn)定版發(fā)布: 帶來(lái)大量新功能和軟件更新
Fedora 42昨日發(fā)布,這是 Red Hat 贊助開(kāi)發(fā)的杰出前沿 Linux 發(fā)行版的最新版,包含大量新功能和軟件更新,使其成為 2025 年上半年發(fā)布的一款出色的 Linux 操作系統(tǒng)之一,內(nèi)2025-04-16如何在Linux查看硬盤信息? 查看Linux硬盤大小類型和硬件信息的5種方法
使用Linux系統(tǒng)的過(guò)程中,查看和了解硬盤信息是非常重要的工作,尤其是對(duì)于系統(tǒng)管理員而言,那么在Linux系統(tǒng)中如何查看硬盤信息?以下是具體內(nèi)容介紹2025-03-12如何在 Linux 中查看 CPU 詳細(xì)信息? 3招輕松查看CPU型號(hào)、核心數(shù)和溫度
在日常運(yùn)維工作中,獲取 CPU 信息是系統(tǒng)運(yùn)維管理員常見(jiàn)的工作內(nèi)容,無(wú)論是為了性能調(diào)優(yōu)、硬件升級(jí)還是僅僅滿足好奇心2025-03-11什么是 Arch Linux? 獨(dú)樹(shù)一幟的Arch Linux發(fā)行版分析
Arch Linux是為簡(jiǎn)化,優(yōu)化,現(xiàn)代化,實(shí)用主義,用戶中心和多功能性而創(chuàng)建Linux發(fā)行版,究竟是什么讓 Arch 與眾不同?下面我們就來(lái)簡(jiǎn)要解讀2025-02-19如何在Linux環(huán)境下制作 Win11裝機(jī)U盤?
一直用的linux辦公,想要將筆記本電腦從 Linux 系統(tǒng)切換回 Windows 11,我們可以制作一個(gè)win11裝機(jī)u盤,詳細(xì)如下2025-02-17Rsnapshot怎么用? 基于Rsync的強(qiáng)大Linux備份工具使用指南
Rsnapshot 不僅可以備份本地文件,還能通過(guò) SSH 備份遠(yuǎn)程文件,接下來(lái)詳細(xì)介紹如何安裝、配置和使用 Rsnapshot,包括創(chuàng)建每小時(shí)、每天、每周和每月的本地備份,以及如何進(jìn)2025-02-06Linux Kernel 6.13發(fā)布:附更新內(nèi)容及新特性解讀
Linux 內(nèi)核 6.13 正式發(fā)布,新版本引入了惰性搶占支持,簡(jiǎn)化內(nèi)核搶占邏輯,通過(guò)減少與調(diào)度器相關(guān)的調(diào)用次數(shù),讓內(nèi)核在運(yùn)行時(shí)表現(xiàn)更優(yōu),從而提高效率2025-01-23五大特性引領(lǐng)創(chuàng)新! 深度操作系統(tǒng) deepin 25 Preview預(yù)覽版發(fā)布
今日,深度操作系統(tǒng)正式推出deepin 25 Preview版本,該版本集成了五大核心特性:磐石系統(tǒng)、全新DDE、Treeland窗口合成器、AI For OS以及Distrobox子系統(tǒng)2025-01-18Linux Mint Xia 22.1重磅發(fā)布: 重要更新一覽
Beta 版 Linux Mint“Xia” 22.1 發(fā)布,新版本基于 Ubuntu 24.04,內(nèi)核版本為 Linux 6.8,這次更新帶來(lái)了諸多優(yōu)化和改進(jìn),進(jìn)一步鞏固了 Mint 在 Linux 桌面操作系統(tǒng)領(lǐng)域的2025-01-16LinuxMint怎么安裝? Linux Mint22下載安裝圖文教程
Linux Mint22發(fā)布以后,有很多新功能,很多朋友想要下載并安裝,該怎么操作呢?下面我們就來(lái)看看詳細(xì)安裝指南2025-01-16