欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

k8s容器放開鎖內(nèi)存限制問題

 更新時(shí)間:2025年09月16日 10:08:11   作者:aashuii  
nccl-test容器運(yùn)行mpirun時(shí)因NCCL_BUFFSIZE過大導(dǎo)致OOM,需通過修改docker服務(wù)配置文件,將LimitMEMLOCK設(shè)為infinity并重啟docker,以解除內(nèi)存鎖定限制

參考:https://access.redhat.com/solutions/1257953

問題

nccl-test容器docker.io/library/nccl-tests:24.12中跑mpirun,buff設(shè)置為NCCL_BUFFSIZE=503316480

提示out of memory:

?
pod-1:78:91 [0] include/alloc.h:114 NCCL WARN Cuda failure 'out of memory'

pod-1:78:91 [0] include/alloc.h:119 NCCL WARN Failed to CUDA host alloc -268435456 bytes
pod-1:78:91 [0] NCCL INFO transport/net.cc:517 -> 1
pod-1:78:91 [0] NCCL INFO transport/net.cc:719 -> 1
pod-1:78:93 [0] NCCL INFO transport.cc:193 -> 1
pod-1:78:93 [0] NCCL INFO group.cc:133 -> 1
pod-1:78:93 [0] NCCL INFO group.cc:75 -> 1 [Async thread]

pod-1:78:91 [0] proxy.cc:1620 NCCL WARN [Service thread] Error encountered progressing operation=Connect, res=3, closing connection
pod-1:78:78 [0] NCCL INFO group.cc:426 -> 1
pod-1:78:78 [0] NCCL INFO group.cc:566 -> 1
pod-1:78:78 [0] NCCL INFO group.cc:106 -> 1
pod-1: Test NCCL failure sendrecv.cu:57 'unhandled cuda error (run with NCCL_DEBUG=INFO for details) / '
 .. pod-1 pid 78: Test failure common.cu:383
 .. pod-1 pid 78: Test failure common.cu:592
 .. pod-1 pid 78: Test failure sendrecv.cu:103
 .. pod-1 pid 78: Test failure common.cu:625
 .. pod-1 pid 78: Test failure common.cu:1123
 .. pod-1 pid 78: Test failure common.cu:893
 

問題確認(rèn)

容器內(nèi)執(zhí)行ulimit -a顯示max locked memory只有64k

放開容器max locked memory限制

在 /etc/systemd/system/docker.service中增加LimitMEMLOCK=infinity

然后重啟docker:

systemctl daemon-reload
systemctl restart docker

總結(jié)

以上為個(gè)人經(jīng)驗(yàn),希望能給大家一個(gè)參考,也希望大家多多支持腳本之家。

相關(guān)文章

  • K8s學(xué)習(xí)之Pod的定義及詳細(xì)資源調(diào)用案例

    K8s學(xué)習(xí)之Pod的定義及詳細(xì)資源調(diào)用案例

    Kubernetes將所有內(nèi)容抽象為資源,通過操作資源管理集群,核心單元是Pod,通過控制器管理Pod,資源管理分為命令式對(duì)象管理、命令式對(duì)象配置和聲明式對(duì)象配置,各有適用場景,需要的朋友可以參考下
    2024-09-09
  • k8s集群部署過程

    k8s集群部署過程

    本文詳細(xì)介紹了如何部署Kubernetes集群,包括安裝Docker、配置阿里云YUM軟件源、安裝kubeadm、kubelet和kubectl,以及部署Kubernetes、安裝Pod網(wǎng)絡(luò)插件和將節(jié)點(diǎn)加入集群的過程,感興趣的朋友一起看看吧
    2025-03-03
  • K8S下http請(qǐng)求在ingress和nginx間無限循環(huán)的問題及解決

    K8S下http請(qǐng)求在ingress和nginx間無限循環(huán)的問題及解決

    文章描述了UAT環(huán)境中因Nginx與IngressController代理循環(huán)導(dǎo)致400錯(cuò)誤的排查過程,發(fā)現(xiàn)proxy_set_header Host配置引發(fā)Host頭攜帶Nginx域名,導(dǎo)致請(qǐng)求反復(fù)轉(zhuǎn)發(fā),最終X-Forwarded-For頭溢出,解決方法是移除該配置
    2025-07-07
  • Rainbond調(diào)用Vue?React項(xiàng)目的后端接口

    Rainbond調(diào)用Vue?React項(xiàng)目的后端接口

    這篇文章主要為大家介紹了Rainbond調(diào)用Vue?React項(xiàng)目的后端接口問題解決,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進(jìn)步,早日升職加薪
    2022-04-04
  • k8s入門實(shí)戰(zhàn)deployment使用詳解

    k8s入門實(shí)戰(zhàn)deployment使用詳解

    這篇文章主要為大家介紹了k8s入門實(shí)戰(zhàn)deployment使用詳解,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進(jìn)步,早日升職加薪
    2023-03-03
  • K8S容器OOM?killed排查過程

    K8S容器OOM?killed排查過程

    這篇文章主要介紹了K8S容器OOM?killed排查過程,具有很好的參考價(jià)值,希望對(duì)大家有所幫助,如有錯(cuò)誤或未考慮完全的地方,望不吝賜教
    2025-07-07
  • K8S中某個(gè)容器突然出現(xiàn)內(nèi)存和CPU占用過高的問題及解決方案

    K8S中某個(gè)容器突然出現(xiàn)內(nèi)存和CPU占用過高的問題及解決方案

    當(dāng)K8S容器出現(xiàn)資源過載時(shí),可通過kubectl監(jiān)控定位問題,調(diào)整資源限制,優(yōu)化應(yīng)用代碼,拆分多應(yīng)用容器,利用監(jiān)控工具排查,實(shí)施水平擴(kuò)展或遷移負(fù)載,確保集群穩(wěn)定運(yùn)行
    2025-07-07
  • K8S安裝及配置教程

    K8S安裝及配置教程

    這篇文章主要介紹了K8S安裝及配置教程,本文給大家介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或工作具有一定的參考借鑒價(jià)值,需要的朋友參考下吧
    2025-03-03
  • k8s容器的內(nèi)存設(shè)置的踩坑記錄

    k8s容器的內(nèi)存設(shè)置的踩坑記錄

    這篇文章主要介紹了k8s容器的內(nèi)存設(shè)置的踩坑記錄,具有很好的參考價(jià)值,希望對(duì)大家有所幫助,如有錯(cuò)誤或未考慮完全的地方,望不吝賜教
    2025-07-07
  • k8s?pod和service網(wǎng)絡(luò)暴露詳解

    k8s?pod和service網(wǎng)絡(luò)暴露詳解

    這篇文章主要介紹了借助iptables的路由轉(zhuǎn)發(fā)功能,打通k8s集群內(nèi)的pod和service網(wǎng)絡(luò),與外部網(wǎng)絡(luò)聯(lián)通,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進(jìn)步,早日升職加薪
    2023-11-11

最新評(píng)論