Docker部署Xinference的教程

更新時(shí)間：2025年03月28日 11:02:38 作者：學(xué)亮編程手記

這篇文章主要介紹了Docker部署Xinference的教程,具有很好的參考價(jià)值,希望對(duì)大家有所幫助,如有錯(cuò)誤或未考慮完全的地方,望不吝賜教

Docker 鏡像

Xinference 在 Dockerhub 和阿里云容器鏡像服務(wù) 中上傳了官方鏡像。

準(zhǔn)備工作

Xinference 使用 GPU 加速推理，該鏡像需要在有 GPU 顯卡并且安裝 CUDA 的機(jī)器上運(yùn)行。
保證 CUDA 在機(jī)器上正確安裝?？梢允褂?nvidia-smi 檢查是否正確運(yùn)行。
鏡像中的 CUDA 版本為 12.4 。為了不出現(xiàn)預(yù)期之外的問(wèn)題，請(qǐng)將宿主機(jī)的 CUDA 版本和 NVIDIA Driver 版本分別升級(jí)到 12.4 和 550 以上。

Docker 鏡像

當(dāng)前，可以通過(guò)兩個(gè)渠道拉取 Xinference 的官方鏡像。

1. 在 Dockerhub 的 xprobe/xinference 倉(cāng)庫(kù)里。

2. Dockerhub 中的鏡像會(huì)同步上傳一份到阿里云公共鏡像倉(cāng)庫(kù)中，供訪問(wèn) Dockerhub 有困難的用戶拉取。

拉取命令：

docker pull registry.cn-hangzhou.aliyuncs.com/xprobe_xinference/xinference:<tag>

目前可用的標(biāo)簽包括：

nightly-main: 這個(gè)鏡像會(huì)每天從 GitHub main 分支更新制作，不保證穩(wěn)定可靠。
v<release version>: 這個(gè)鏡像會(huì)在 Xinference 每次發(fā)布的時(shí)候制作，通?？梢哉J(rèn)為是穩(wěn)定可靠的。
latest: 這個(gè)鏡像會(huì)在 Xinference 發(fā)布時(shí)指向最新的發(fā)布版本
對(duì)于 CPU 版本，增加 -cpu 后綴，如 nightly-main-cpu。

自定義鏡像

如果需要安裝額外的依賴，可以參考 xinference/deploy/docker/Dockerfile 。

請(qǐng)確保使用 Dockerfile 制作鏡像時(shí)在 Xinference 項(xiàng)目的根目錄下。

比如：

git clone https://github.com/xorbitsai/inference.git
cd inference
docker build --progress=plain -t test -f xinference/deploy/docker/Dockerfile .

使用鏡像

你可以使用如下方式在容器內(nèi)啟動(dòng) Xinference，同時(shí)將 9997 端口映射到宿主機(jī)的 9998 端口，并且指定日志級(jí)別為 DEBUG，也可以指定需要的環(huán)境變量。

docker run -e XINFERENCE_MODEL_SRC=modelscope -p 9998:9997 --gpus all xprobe/xinference:v<your_version> xinference-local -H 0.0.0.0 --log-level debug

警告：

--gpus 必須指定，正如前文描述，鏡像必須運(yùn)行在有 GPU 的機(jī)器上，否則會(huì)出現(xiàn)錯(cuò)誤。
-H 0.0.0.0 也是必須指定的，否則在容器外無(wú)法連接到 Xinference 服務(wù)。
可以指定多個(gè) -e 選項(xiàng)賦值多個(gè)環(huán)境變量。

當(dāng)然，也可以運(yùn)行容器后，進(jìn)入容器內(nèi)手動(dòng)拉起 Xinference。

掛載模型目錄

默認(rèn)情況下，鏡像中不包含任何模型文件，使用過(guò)程中會(huì)在容器內(nèi)下載模型。

如果需要使用已經(jīng)下載好的模型，需要將宿主機(jī)的目錄掛載到容器內(nèi)。

這種情況下，需要在運(yùn)行容器時(shí)指定本地卷，并且為 Xinference 配置環(huán)境變量。

docker run -v </on/your/host>:</on/the/container> -e XINFERENCE_HOME=</on/the/container> -p 9998:9997 --gpus all xprobe/xinference:v<your_version> xinference-local -H 0.0.0.0

上述命令的原理是將主機(jī)上指定的目錄掛載到容器中，并設(shè)置 XINFERENCE_HOME 環(huán)境變量指向容器內(nèi)的該目錄。這樣，所有下載的模型文件將存儲(chǔ)在您在主機(jī)上指定的目錄中。

您無(wú)需擔(dān)心在 Docker 容器停止時(shí)丟失這些文件，下次運(yùn)行容器時(shí)，您可以直接使用現(xiàn)有的模型，無(wú)需重復(fù)下載。

如果你在宿主機(jī)使用的默認(rèn)路徑下載的模型，由于 xinference cache 目錄是用的軟鏈的方式存儲(chǔ)模型，需要將原文件所在的目錄也掛載到容器內(nèi)。

例如你使用 huggingface 和 modelscope 作為模型倉(cāng)庫(kù)，那么需要將這兩個(gè)對(duì)應(yīng)的目錄掛載到容器內(nèi)，一般對(duì)應(yīng)的 cache 目錄分別在 <home_path>/.cache/huggingface 和 <home_path>/.cache/modelscope，使用的命令如下：

docker run \
  -v </your/home/path>/.xinference:/root/.xinference \
  -v </your/home/path>/.cache/huggingface:/root/.cache/huggingface \
  -v </your/home/path>/.cache/modelscope:/root/.cache/modelscope \
  -p 9997:9997 \
  --gpus all \
  xprobe/xinference:v<your_version> \
  xinference-local -H 0.0.0.0

links：

Docker 鏡像 — Xinference