使用DeepSeek搭建個(gè)人知識庫(在筆記本電腦上)
最近DeepSeek爆火,試用DeepSeek的企業(yè)和個(gè)人越來越多。最常見的應(yīng)用場景就是知識庫和知識問答。所以本人也試用了一下,在筆記本電腦上部署DeepSeek并使用開源工具搭建一套知識庫,實(shí)現(xiàn)完全在本地環(huán)境下使用本地文檔搭建個(gè)人知識庫。操作過程共享出來,供大家參考。
部署環(huán)境
筆記本電腦,具體配置如下:
處理器:Intel(R) Core(TM) i7-10510U CPU @ 1.80GHz 2.30 GHz
內(nèi)存:16G
硬盤:500G
顯卡:集成顯卡
操作系統(tǒng):Windows 11
軟件清單
構(gòu)建本地知識庫,除了DeepSeek還需要安裝知識庫軟件。網(wǎng)上推薦比較多的是RagFlow,軟件開源,功能也很強(qiáng)大,可以使用本地文檔構(gòu)建外掛知識庫。另外,同時(shí)也安裝了Cherry Studio,可以作為操作DeepSeek的交互工具。
軟件 | 功能 | 版本 | 依賴工具 |
DeepSeek | LLM模型,主要用于自然語言理解和推理 | deepseek-r1:7b | Ollama |
Cherry Studio | 一款強(qiáng)大的多模型 AI 助手,可用于DeepSeek的人機(jī)交互 | 最新版就好 | |
BGE | 通用向量模型,用于知識庫中文檔檢索 | bge-m3:latest | |
RAGFlow | 知識庫構(gòu)建工具 | 最新版就好 | Docker Git |
安裝DeepSeek
從官網(wǎng)下載并安裝Ollama,過程略??蓞⒖?https://ollama.com/
安裝完畢后,執(zhí)行命令:
ollama run deepseek-r1:7b
安裝成功后,就可以在命令行里操作deepseek了。
操作很簡單。至此,deepseek就安裝完畢。
安裝Cherry Studio
如果不習(xí)慣使用命令行,希望使用客戶端與本地安裝的deepseek交互,可以安裝一個(gè)對話界面軟件,我試用了Chatbox和Cherry Studio都不錯(cuò),可以更直觀地調(diào)整模型的參數(shù)和提示詞,同時(shí)也支持將對話內(nèi)容完全存檔在本地,本文以Cherry Studio為例。
前往https://cherry-ai.com/,根據(jù)你的操作系統(tǒng)(支持 Windows、Mac 和 Linux)下載對應(yīng)的安裝包。默認(rèn)下一步安裝完畢就好。
啟動(dòng)Cherry Studio,添加嵌入模型。
在模型服務(wù)中選擇Ollama
點(diǎn)擊“管理”進(jìn)行模型選擇,從模型列表中選擇與你本地部署的 DeepSeek-R1 模型版本對應(yīng)的選項(xiàng),如果沒有直接匹配項(xiàng),選擇支持自定義模型配置的入口。
在“API地址”中,將 API 地址設(shè)置為http://localhost:11434 ,這是 Ollama 服務(wù)的默認(rèn)接口地址,確保 Cherry Studio 能連接到本地運(yùn)行的 DeepSeek-R1 模型。
保存后,就可以創(chuàng)建助手與本地deepseek進(jìn)行對話了。
安裝RAGFlow
RAGFlow使用Docker部署運(yùn)行,因此需要先在電腦上部署Docker環(huán)境。同時(shí)本文采用從GitHub倉庫直接拉取鏡像部署的方式,因此也需要提前安裝Git。
可訪問官方 GitHub 倉庫的 README 頁面拉取鏡像,并按照文檔中的指引安裝部署:https://github.com/infiniflow/ragflow/blob/main/README_zh.md
如果遇到問題,可訪問網(wǎng)絡(luò)上部署 RAGFlow 的踩坑帖子,如:http://www.dbjr.com.cn/program/337628r08.htm
如果電腦沒裝Docker,可以參考Windows | Docker Docs 自行安裝,本文使用WSL。
安裝完畢后,要記得啟動(dòng)“Docker Desktop”,否則后面執(zhí)行docker命令時(shí)會報(bào)錯(cuò)。
如果電腦沒裝Git,可以從Git - Downloading Package下載安裝文件進(jìn)行安裝。
安裝完畢后,進(jìn)入命令行,將RAGFlow工程Clone到本地文件夾下。
$ git clone https://github.com/infiniflow/ragflow.git
進(jìn)入 docker 文件夾
$ cd ragflow/docker
利用提前編譯好的 Docker 鏡像啟動(dòng)服務(wù)器:
運(yùn)行以下命令會自動(dòng)下載 RAGFlow slim Docker 鏡像 v0.16.0-slim。
$ docker compose -f docker-compose.yml up -d
如需下載不同于 v0.16.0-slim 的 Docker 鏡像,請?jiān)谶\(yùn)行 docker compose 啟動(dòng)服務(wù)之前先更新 docker/.env 文件內(nèi)的 RAGFLOW_IMAGE 變量。比如,你可以通過設(shè)置 RAGFLOW_IMAGE=infiniflow/ragflow:v0.16.0 來下載 RAGFlow 鏡像的 v0.16.0 完整發(fā)行版。
如果遇到 Docker 鏡像拉不下來的問題,可以在 docker/.env 文件內(nèi)根據(jù)變量
RAGFLOW_IMAGE
的注釋提示選擇華為云的相應(yīng)鏡像。華為云鏡像名:
swr.cn-north-4.myhuaweicloud.com/infiniflow/ragflow
運(yùn)行成功后,打開瀏覽器,登錄localhost進(jìn)入RAGFlow頁面。注冊賬號后,就可以登錄使用了。
設(shè)置知識庫
使用RAGFlow設(shè)置知識庫,首先要在“模型提供商”中添加模型。必須要添加的有兩個(gè)模型,一個(gè)是LLM模型,使用DeepSeek;另一個(gè)是嵌入模型,使用bge-m3。
在“待添加的模型”列表中選擇“Ollama”,添加LLM.
“最大token數(shù)”可以通過如下命令獲取后填入。
ollama show deepseek-r1:7b
“基礎(chǔ)Url”需要注意如果填寫“http://localhost:11434”,會遇到“[Errno 111] Connection refused”的異常。原因是Docker中的程序訪問不到本機(jī)的11434端口,可以參考
[Question]: Fail to access model(deepseek-r1:8b).**ERROR**: [Errno 111] Connection refused因此,此處要注意“基礎(chǔ)Url”處填寫:
http://host.docker.internal:11434
添加嵌入模型前,首先使用Ollama 安裝bge-m3
ollama pull bge-m3
然后配置嵌入模型。
模型添加成功后,進(jìn)入“系統(tǒng)模型設(shè)置”,選擇添加的模型。
然后就可以創(chuàng)建知識庫了。
在知識庫設(shè)置中修改語言、權(quán)限、嵌入模型。
在“數(shù)據(jù)集”中上傳所需的文檔。
上傳成功后,選擇文檔進(jìn)行“解析”。
上傳了幾個(gè)PDF文檔,解析的效果還不錯(cuò)。解析分段如果有不準(zhǔn)確的地方,可以人工修正。
數(shù)據(jù)集準(zhǔn)備就緒后,就可以“新建助理”,然后問問題了。
相比于互聯(lián)網(wǎng)模型,個(gè)人知識庫會從結(jié)合本地文檔訓(xùn)練的數(shù)據(jù)集進(jìn)行分析,更加符合個(gè)人專業(yè)訴求。
總結(jié)
DeepSeek確實(shí)很香,搭配開源工具不花一分錢就搭建了一個(gè)定制化的知識庫。從回答的邏輯和文檔解析的效果看,都很不錯(cuò)。當(dāng)然,本案例個(gè)人嘗鮮可以,作企業(yè)商用還不行,拋開企業(yè)定制化和運(yùn)維需求之外,主要問題有兩個(gè):
1. 個(gè)人筆記本的配置部署7b小模型已經(jīng)是極限了,使用Cherry Studio做問答速度還可以。但使用RAGFlow做的個(gè)人知識庫做問答,確實(shí)慢的要死。正式使用或企業(yè)商用,還是需要試用商用推薦配置。
2. 數(shù)據(jù)集質(zhì)量極大影響知識庫問答效果,因此高價(jià)值的原始數(shù)據(jù)以及對原始數(shù)據(jù)的解析整理十分重要?,F(xiàn)在工具能力相當(dāng)不錯(cuò)了,但數(shù)據(jù)工程將是企業(yè)數(shù)據(jù)庫構(gòu)建的主要挑戰(zhàn)。
到此這篇關(guān)于使用DeepSeek搭建個(gè)人知識庫(在筆記本電腦上)的文章就介紹到這了,更多相關(guān)DeepSeek搭建知識庫內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
相關(guān)文章
Ceph分布式存儲集群Pool資源池簡介及使用小結(jié)
這篇文章主要介紹了Ceph分布式存儲集群Pool資源池的概念以及使用,Pool資源池是Ceph存儲數(shù)據(jù)的邏輯分區(qū),起到Namespace命名空間的作用,本文給大家介紹的非常詳細(xì),需要的朋友參考下吧2022-06-06詳解VScode自動(dòng)補(bǔ)全CSS3前綴插件以及配置無效的解決辦法
這篇文章主要介紹了詳解VScode自動(dòng)補(bǔ)全CSS3前綴插件以及配置無效的解決辦法,文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧2020-06-06網(wǎng)址(URL)支持的最大長度是多少?最大支持多少個(gè)字符?
這篇文章主要介紹了網(wǎng)址(URL)支持的最大長度是多少?最大支持多少個(gè)字符?本文總結(jié)了IIS、apache服務(wù)器及瀏覽器軟件Internet Explorer、Firefox、Opera、chrome等主流的瀏覽器軟件支持情況,需要的朋友可以參考下2015-07-07lambda 表達(dá)式導(dǎo)致 Arthas 無法 redefine 的問題
這篇文章主要介紹了lambda 表達(dá)式導(dǎo)致 Arthas 無法 redefine 的問題,本文通過圖文實(shí)例相結(jié)合給大家介紹的非常詳細(xì),對大家的學(xué)習(xí)或工作具有一定的參考借鑒價(jià)值,需要的朋友可以參考下2020-06-06flask+layui+echarts實(shí)現(xiàn)前端動(dòng)態(tài)圖展示數(shù)據(jù)效果
這篇文章主要介紹了flask+layui+echarts實(shí)現(xiàn)前端動(dòng)態(tài)圖展示數(shù)據(jù)效果,本文通過實(shí)例代碼給大家介紹的非常詳細(xì),具有一定的參考借鑒價(jià)值,需要的朋友可以參考下2019-09-09