本地化部署 DeepSeek 全攻略(linux、windows、mac系統(tǒng)部署)

更新時(shí)間：2025年02月19日 12:04:45 作者：菜狗小測(cè)試

本文詳細(xì)介紹了在Linux、Windows和Mac系統(tǒng)上本地部署DeepSeek模型的步驟,包括硬件要求、軟件環(huán)境、模型下載和部署步驟、以及優(yōu)化與注意事項(xiàng),感興趣的朋友一起看看吧

一、Linux 系統(tǒng)部署

準(zhǔn)備工作

硬件要求：服務(wù)器需具備充足計(jì)算資源。推薦使用 NVIDIA GPU，如 A100、V100 等，能加快模型推理速度。內(nèi)存至少 32GB，存儲(chǔ)建議采用高速固態(tài)硬盤（SSD），保障數(shù)據(jù)讀寫高效。
軟件環(huán)境：安裝 Linux 操作系統(tǒng)，如 Ubuntu 20.04。同時(shí)，安裝 Python 3.8 及以上版本，以及相關(guān)依賴庫(kù)，如 PyTorch、transformers 等。以 CUDA 11.7 為例，安裝 PyTorch 的命令如下：

pip install torch==1.13.1+cu117 torchvision==0.14.1+cu117 torchaudio==0.13.1 --extra-index-url https://download.pytorch.org/whl/cu117

安裝 transformers 庫(kù)：

pip install transformers

2.下載 DeepSeek 模型
訪問 DeepSeek 官方模型下載地址，依據(jù)需求選擇合適的模型版本。目前 DeepSeek 有不同參數(shù)規(guī)模的模型可選，如 DeepSeek-7B、DeepSeek-13B 等。
使用wget命令下載模型文件，示例如下：

wget https://download.deepseek.com/DeepSeek-7B.tar.gz

下載完成后，解壓模型文件：

tar -zxvf DeepSeek-7B.tar.gz

3.部署步驟
創(chuàng)建項(xiàng)目目錄：在本地創(chuàng)建新的項(xiàng)目目錄，用于存放部署相關(guān)文件和腳本。

mkdir deepseek_deployment
cd deepseek_deployment

編寫推理腳本：使用 Python 編寫推理腳本，如inference.py。在腳本中導(dǎo)入必要庫(kù)，加載 DeepSeek 模型和分詞器，實(shí)現(xiàn)推理功能。示例代碼如下：

import torch
from transformers import AutoTokenizer, AutoModelForCausalLM
# 加載分詞器和模型
tokenizer = AutoTokenizer.from_pretrained("path/to/DeepSeek-7B")
model = AutoModelForCausalLM.from_pretrained("path/to/DeepSeek-7B", torch_dtype=torch.float16).cuda()
# 定義推理函數(shù)
def generate_text(prompt, max_length=100):
    input_ids = tokenizer.encode(prompt, return_tensors='pt').cuda()
    output = model.generate(input_ids, max_length=max_length, num_beams=5, early_stopping=True)
    return tokenizer.decode(output[0], skip_special_tokens=True)
# 示例使用
prompt = "請(qǐng)介紹一下人工智能的發(fā)展趨勢(shì)"
generated_text = generate_text(prompt)
print(generated_text)
請(qǐng)將path/to/DeepSeek-7B替換為實(shí)際的模型路徑。
啟動(dòng)服務(wù)：若需將模型部署為服務(wù)，可使用 FastAPI 等框架。首先安裝 FastAPI 和 uvicorn：
pip install fastapi uvicorn
然后編寫服務(wù)腳本，如app.py：
from fastapi import FastAPI
from pydantic import BaseModel
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM
app = FastAPI()
# 加載分詞器和模型
tokenizer = AutoTokenizer.from_pretrained("path/to/DeepSeek-7B")
model = AutoModelForCausalLM.from_pretrained("path/to/DeepSeek-7B", torch_dtype=torch.float16).cuda()
class PromptRequest(BaseModel):
    prompt: str
    max_length: int = 100
@app.post("/generate")
def generate_text(request: PromptRequest):
    input_ids = tokenizer.encode(request.prompt, return_tensors='pt').cuda()
    output = model.generate(input_ids, max_length=request.max_length, num_beams=5, early_stopping=True)
    return {"generated_text": tokenizer.decode(output[0], skip_special_tokens=True)}

同樣，將path/to/DeepSeek-7B替換為實(shí)際路徑。
啟動(dòng)服務(wù)：

uvicorn app.py:app --host 0.0.0.0 --port 8000

二、Windows 系統(tǒng)部署

1.準(zhǔn)備工作

硬件要求：與 Linux 系統(tǒng)類似，推薦配備 NVIDIA GPU，如 RTX 30 系列及以上，以獲得較好的推理性能。內(nèi)存建議 32GB 及以上，存儲(chǔ)使用高速固態(tài)硬盤。
軟件環(huán)境：安裝 Python 3.8 及以上版本，可從 Python 官網(wǎng)下載安裝包進(jìn)行安裝。安裝時(shí)勾選 “Add Python to PATH” 選項(xiàng)，方便后續(xù)命令行操作。同時(shí)，安裝 PyTorch 和 transformers 庫(kù)。由于 Windows 下 CUDA 安裝較為復(fù)雜，建議使用 conda 進(jìn)行環(huán)境管理。首先安裝 Anaconda，然后創(chuàng)建一個(gè)新的 conda 環(huán)境并安裝依賴：

conda create -n deepseek_env python=3.8
conda activate deepseek_env
conda install pytorch torchvision torchaudio pytorch-cuda=11.7 -c pytorch -c nvidia
pip install transformers

2.下載 DeepSeek 模型

訪問 DeepSeek 官方模型下載地址，選擇合適的模型版本。
可使用瀏覽器直接下載模型文件，也可以在命令行中使用wget（需提前安裝）或curl工具下載。例如，使用curl下載 DeepSeek-7B 模型：

curl -O https://download.deepseek.com/DeepSeek-7B.tar.gz

下載完成后，解壓模型文件，可使用 7-Zip 等解壓工具。

3. 部署步驟

創(chuàng)建項(xiàng)目目錄：在文件資源管理器中創(chuàng)建一個(gè)新的文件夾，例如 “deepseek_deployment”，用于存放部署相關(guān)文件。
編寫推理腳本：使用文本編輯器（如 Notepad++、VS Code 等）編寫 Python 推理腳本inference.py，內(nèi)容與 Linux 版本類似：

import torch
from transformers import AutoTokenizer, AutoModelForCausalLM
# 加載分詞器和模型
tokenizer = AutoTokenizer.from_pretrained("path/to/DeepSeek-7B")
model = AutoModelForCausalLM.from_pretrained("path/to/DeepSeek-7B", torch_dtype=torch.float16).to('cuda')
# 定義推理函數(shù)
def generate_text(prompt, max_length=100):
    input_ids = tokenizer.encode(prompt, return_tensors='pt').to('cuda')
    output = model.generate(input_ids, max_length=max_length, num_beams=5, early_stopping=True)
    return tokenizer.decode(output[0], skip_special_tokens=True)
# 示例使用
prompt = "請(qǐng)介紹一下人工智能的發(fā)展趨勢(shì)"
generated_text = generate_text(prompt)
print(generated_text)
請(qǐng)將path/to/DeepSeek-7B替換為實(shí)際的模型路徑。
啟動(dòng)服務(wù)：若要部署為服務(wù)，同樣可以使用 FastAPI 和 uvicorn。在命令行中激活 conda 環(huán)境后安裝相關(guān)庫(kù)：
pip install fastapi uvicorn
編寫服務(wù)腳本app.py，內(nèi)容與 Linux 版本類似：
from fastapi import FastAPI
from pydantic import BaseModel
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM
app = FastAPI()
# 加載分詞器和模型
tokenizer = AutoTokenizer.from_pretrained("path/to/DeepSeek-7B")
model = AutoModelForCausalLM.from_pretrained("path/to/DeepSeek-7B", torch_dtype=torch.float16).to('cuda')
class PromptRequest(BaseModel):
    prompt: str
    max_length: int = 100
@app.post("/generate")
def generate_text(request: PromptRequest):
    input_ids = tokenizer.encode(request.prompt, return_tensors='pt').to('cuda')
    output = model.generate(input_ids, max_length=request.max_length, num_beams=5, early_stopping=True)
    return {"generated_text": tokenizer.decode(output[0], skip_special_tokens=True)}

將path/to/DeepSeek-7B替換為實(shí)際路徑。
啟動(dòng)服務(wù)：

uvicorn app.py:app --host 0.0.0.0 --port 8000

三、Mac 系統(tǒng)部署

1.準(zhǔn)備工作

硬件要求：如果是配備 M1 或 M2 芯片的 Mac，可利用其強(qiáng)大的計(jì)算能力進(jìn)行部署。對(duì)于 Intel 芯片的 Mac，建議配備較好的顯卡（如果有獨(dú)立顯卡）。內(nèi)存至少 16GB，存儲(chǔ)使用高速固態(tài)硬盤。
軟件環(huán)境：安裝 Python 3.8 及以上版本，可通過 Homebrew 安裝。首先安裝 Homebrew，然后安裝 Python 和相關(guān)依賴庫(kù)：

/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"
brew install python
pip install torch torchvision torchaudio
pip install transformers

如果是 M1 或 M2 芯片的 Mac，安裝 PyTorch 時(shí)需注意選擇適配 ARM 架構(gòu)的版本：

pip install torch torchvision torchaudio -f https://download.pytorch.org/whl/torch_stable.html

2.下載 DeepSeek 模型

訪問 DeepSeek 官方模型下載地址，選擇合適的模型版本。
使用curl命令下載模型文件，例如：

curl -O https://download.deepseek.com/DeepSeek-7B.tar.gz

下載完成后，解壓模型文件：

tar -zxvf DeepSeek-7B.tar.gz

3.部署步驟

創(chuàng)建項(xiàng)目目錄：在終端中使用以下命令創(chuàng)建項(xiàng)目目錄：

mkdir deepseek_deployment
cd deepseek_deployment

編寫推理腳本：使用文本編輯器（如 TextEdit、VS Code 等）編寫 Python 推理腳本inference.py，內(nèi)容與前面類似：

import torch
from transformers import AutoTokenizer, AutoModelForCausalLM
# 加載分詞器和模型
tokenizer = AutoTokenizer.from_pretrained("path/to/DeepSeek-7B")
if torch.backends.mps.is_available():
    model = AutoModelForCausalLM.from_pretrained("path/to/DeepSeek-7B", torch_dtype=torch.float16).to('mps')
else:
    model = AutoModelForCausalLM.from_pretrained("path/to/DeepSeek-7B", torch_dtype=torch.float16).to('cuda' if torch.cuda.is_available() else 'cpu')
# 定義推理函數(shù)
def generate_text(prompt, max_length=100):
    input_ids = tokenizer.encode(prompt, return_tensors='pt').to(model.device)
    output = model.generate(input_ids, max_length=max_length, num_beams=5, early_stopping=True)
    return tokenizer.decode(output[0], skip_special_tokens=True)
# 示例使用
prompt = "請(qǐng)介紹一下人工智能的發(fā)展趨勢(shì)"
generated_text = generate_text(prompt)
print(generated_text)
請(qǐng)將path/to/DeepSeek-7B替換為實(shí)際的模型路徑。
啟動(dòng)服務(wù)：若要部署為服務(wù)，安裝 FastAPI 和 uvicorn：
pip install fastapi uvicorn
編寫服務(wù)腳本app.py，內(nèi)容與前面類似：
from fastapi import FastAPI
from pydantic import BaseModel
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM
app = FastAPI()
# 加載分詞器和模型
tokenizer = AutoTokenizer.from_pretrained("path/to/DeepSeek-7B")
if torch.backends.mps.is_available():
    model = AutoModelForCausalLM.from_pretrained("path/to/DeepSeek-7B", torch_dtype=torch.float16).to('mps')
else:
    model = AutoModelForCausalLM.from_pretrained("path/to/DeepSeek-7B", torch_dtype=torch.float16).to('cuda' if torch.cuda.is_available() else 'cpu')
class PromptRequest(BaseModel):
    prompt: str
    max_length: int = 100
@app.post("/generate")
def generate_text(request: PromptRequest):
    input_ids = tokenizer.encode(request.prompt, return_tensors='pt').to(model.device)
    output = model.generate(input_ids, max_length=request.max_length, num_beams=5, early_stopping=True)
    return {"generated_text": tokenizer.decode(output[0], skip_special_tokens=True)}

將path/to/DeepSeek-7B替換為實(shí)際路徑。
啟動(dòng)服務(wù)：

uvicorn app.py:app --host 0.0.0.0 --port 8000

四、優(yōu)化與注意事項(xiàng)

模型量化：為減少內(nèi)存占用和提高推理速度，可對(duì)模型進(jìn)行量化處理，如使用 INT8 量化。
安全設(shè)置：部署服務(wù)時(shí)，注意設(shè)置合理的訪問權(quán)限和安全策略，防止模型被惡意調(diào)用。
性能監(jiān)控：在 Linux 和 Windows 系統(tǒng)中，可使用 NVIDIA System Management Interface（nvidia-smi）監(jiān)控 GPU 使用情況；在 Mac 系統(tǒng)中，對(duì)于 M1/M2 芯片，可使用top命令等監(jiān)控系統(tǒng)資源使用情況，確保模型運(yùn)行在最佳狀態(tài)。

到此這篇關(guān)于本地化部署 DeepSeek 全攻略的文章就介紹到這了,更多相關(guān)本地化部署 DeepSeek內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家！

您可能感興趣的文章: