k8s容器放開鎖內(nèi)存限制問題
參考:https://access.redhat.com/solutions/1257953
問題
nccl-test容器docker.io/library/nccl-tests:24.12中跑mpirun,buff設(shè)置為NCCL_BUFFSIZE=503316480
提示out of memory:
?
pod-1:78:91 [0] include/alloc.h:114 NCCL WARN Cuda failure 'out of memory'pod-1:78:91 [0] include/alloc.h:119 NCCL WARN Failed to CUDA host alloc -268435456 bytes
pod-1:78:91 [0] NCCL INFO transport/net.cc:517 -> 1
pod-1:78:91 [0] NCCL INFO transport/net.cc:719 -> 1
pod-1:78:93 [0] NCCL INFO transport.cc:193 -> 1
pod-1:78:93 [0] NCCL INFO group.cc:133 -> 1
pod-1:78:93 [0] NCCL INFO group.cc:75 -> 1 [Async thread]pod-1:78:91 [0] proxy.cc:1620 NCCL WARN [Service thread] Error encountered progressing operation=Connect, res=3, closing connection
pod-1:78:78 [0] NCCL INFO group.cc:426 -> 1
pod-1:78:78 [0] NCCL INFO group.cc:566 -> 1
pod-1:78:78 [0] NCCL INFO group.cc:106 -> 1
pod-1: Test NCCL failure sendrecv.cu:57 'unhandled cuda error (run with NCCL_DEBUG=INFO for details) / '
.. pod-1 pid 78: Test failure common.cu:383
.. pod-1 pid 78: Test failure common.cu:592
.. pod-1 pid 78: Test failure sendrecv.cu:103
.. pod-1 pid 78: Test failure common.cu:625
.. pod-1 pid 78: Test failure common.cu:1123
.. pod-1 pid 78: Test failure common.cu:893
問題確認(rèn)
容器內(nèi)執(zhí)行ulimit -a顯示max locked memory只有64k

放開容器max locked memory限制
在 /etc/systemd/system/docker.service中增加LimitMEMLOCK=infinity

然后重啟docker:
systemctl daemon-reload systemctl restart docker
總結(jié)
以上為個(gè)人經(jīng)驗(yàn),希望能給大家一個(gè)參考,也希望大家多多支持腳本之家。
相關(guān)文章
K8s學(xué)習(xí)之Pod的定義及詳細(xì)資源調(diào)用案例
Kubernetes將所有內(nèi)容抽象為資源,通過操作資源管理集群,核心單元是Pod,通過控制器管理Pod,資源管理分為命令式對(duì)象管理、命令式對(duì)象配置和聲明式對(duì)象配置,各有適用場景,需要的朋友可以參考下2024-09-09
K8S下http請(qǐng)求在ingress和nginx間無限循環(huán)的問題及解決
文章描述了UAT環(huán)境中因Nginx與IngressController代理循環(huán)導(dǎo)致400錯(cuò)誤的排查過程,發(fā)現(xiàn)proxy_set_header Host配置引發(fā)Host頭攜帶Nginx域名,導(dǎo)致請(qǐng)求反復(fù)轉(zhuǎn)發(fā),最終X-Forwarded-For頭溢出,解決方法是移除該配置2025-07-07
Rainbond調(diào)用Vue?React項(xiàng)目的后端接口
這篇文章主要為大家介紹了Rainbond調(diào)用Vue?React項(xiàng)目的后端接口問題解決,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進(jìn)步,早日升職加薪2022-04-04
k8s入門實(shí)戰(zhàn)deployment使用詳解
這篇文章主要為大家介紹了k8s入門實(shí)戰(zhàn)deployment使用詳解,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進(jìn)步,早日升職加薪2023-03-03
K8S中某個(gè)容器突然出現(xiàn)內(nèi)存和CPU占用過高的問題及解決方案
當(dāng)K8S容器出現(xiàn)資源過載時(shí),可通過kubectl監(jiān)控定位問題,調(diào)整資源限制,優(yōu)化應(yīng)用代碼,拆分多應(yīng)用容器,利用監(jiān)控工具排查,實(shí)施水平擴(kuò)展或遷移負(fù)載,確保集群穩(wěn)定運(yùn)行2025-07-07
k8s?pod和service網(wǎng)絡(luò)暴露詳解
這篇文章主要介紹了借助iptables的路由轉(zhuǎn)發(fā)功能,打通k8s集群內(nèi)的pod和service網(wǎng)絡(luò),與外部網(wǎng)絡(luò)聯(lián)通,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進(jìn)步,早日升職加薪2023-11-11

