AI 離線部署
EP.02

Ollama 本地 LLM 部署全攻略
含離線環境搬檔教學

從安裝 Ollama 到在本地跑第一個推論,
再到如何在完全沒有網路的工廠環境部署模型

Joseph Chen

2025
12 min read
實戰筆記

上一篇說了 Air-gapped 是什麼、工廠為什麼需要離線 AI。這篇進入實作:如何用 Ollama 在本地跑 LLM,以及如何在完全離線的環境部署。

Ollama 是目前最方便的本地 LLM 執行工具,一個指令就能跑起 Llama 3、Qwen2、Gemma 2 等主流開源模型。 但在離線環境裡,這個「一個指令」背後的準備工作需要仔細規劃。

Ollama 是什麼?

Ollama 是一個開源工具,讓你可以在本地機器上直接執行大型語言模型。 它把模型管理、量化、推論引擎全部包裝好,提供一個類似 Docker 的使用體驗。

📦

模型管理

用 pull/list/rm 管理本地模型,和 docker 指令幾乎一樣直覺。

高效推論

底層用 llama.cpp,支援 CPU 和 GPU 加速,GGUF 格式模型量化後記憶體需求大幅降低。

🔌

OpenAI 相容 API

提供 REST API,格式與 OpenAI 完全相容,現有整合 ChatGPT 的程式碼幾乎不用改。

一般環境安裝(有網路)

先看有網路的情況,這是基礎,也讓你理解「離線版」要複製哪些步驟。

Step 1:安裝 Ollama

macOS / Linux
# macOS
curl -fsSL https://ollama.com/install.sh | sh

# Linux
curl -fsSL https://ollama.com/install.sh | sh

# Windows
# 直接下載 .exe 安裝檔

Step 2:下載並執行模型

terminal
# 下載並執行 Llama 3.2(3B 版,約 2GB)
ollama run llama3.2

# 下載 Qwen2.5(中文效果更好)
ollama run qwen2.5

# 列出本地模型
ollama list

# 查看模型資訊
ollama show llama3.2

Step 3:透過 API 呼叫

curl
# Ollama 原生 API
curl http://localhost:11434/api/generate \
  -d '{"model":"llama3.2","prompt":"你好","stream":false}'

# OpenAI 相容格式(Dify/LangChain 整合用這個)
curl http://localhost:11434/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "llama3.2",
    "messages": [{"role":"user","content":"你好"}]
  }'

離線環境部署:關鍵步驟

在沒有網路的環境,你需要事先在有網路的機器準備好所有東西,再搬進去。以下是完整流程:

⚠️前提:準備一台有網路的機器(系統架構最好和目標機相同,例如都是 Linux x86_64), 用它下載所有需要的東西,打包後搬入離線環境。
01

在有網路的機器下載 Ollama 安裝檔

bash
# Linux x86_64
curl -L https://github.com/ollama/ollama/releases/latest/download/ollama-linux-amd64.tgz -o ollama-linux-amd64.tgz

# 或下載特定版本(推薦固定版本,避免更新問題)
curl -L https://github.com/ollama/ollama/releases/download/v0.3.14/ollama-linux-amd64.tgz -o ollama.tgz
02

在有網路的機器下載模型

bash
# 先在有網路的機器執行 ollama pull
ollama pull qwen2.5:7b

# 模型存放位置(macOS)
~/.ollama/models/

# 模型存放位置(Linux)
/usr/share/ollama/.ollama/models/

# 把整個 models 資料夾打包
tar -czf ollama-models.tar.gz ~/.ollama/models/
03

搬入離線環境並安裝

bash
# 解壓縮 Ollama
tar -xzf ollama-linux-amd64.tgz -C /usr/local/bin/

# 解壓縮模型到對應路徑
mkdir -p /usr/share/ollama/.ollama/
tar -xzf ollama-models.tar.gz -C /usr/share/ollama/

# 啟動 Ollama service
ollama serve &

# 驗證模型是否可用
ollama list
ollama run qwen2.5:7b "你好,請用中文回答"
04

設定為系統服務(開機自啟)

bash
# 建立 systemd service(Linux)
cat > /etc/systemd/system/ollama.service << 'EOF'
[Unit]
Description=Ollama Service
After=network-online.target

[Service]
ExecStart=/usr/local/bin/ollama serve
User=ollama
Group=ollama
Restart=always
RestartSec=3
Environment="OLLAMA_HOST=0.0.0.0:11434"

[Install]
WantedBy=multi-user.target
EOF

systemctl daemon-reload
systemctl enable ollama
systemctl start ollama

模型怎麼選?

在工廠環境,硬體規格通常受限。以下是我的選型經驗:

模型大小RAM 需求中文能力適合場景
qwen2.5:7b~4.7 GB8 GB+⭐⭐⭐⭐⭐工廠首選,中文最好
llama3.2:3b~2 GB4 GB+⭐⭐⭐硬體資源有限時
llama3.1:8b~4.9 GB8 GB+⭐⭐⭐⭐英文場景為主
gemma2:9b~5.5 GB8 GB+⭐⭐⭐代碼生成較強
💡實戰建議:工廠環境建議用 qwen2.5:7b。 阿里巴巴開發,中文理解能力最強,7B 參數在 8GB RAM 的機器上跑得起來, 處理中文 SOP 文件、工程報告效果明顯優於 Llama 系列。

這篇學到什麼

📦Ollama 把模型管理、推論引擎都包裝好,提供 Docker 風格的使用體驗和 OpenAI 相容 API
🔒離線部署的核心:在有網路的機器下載 Ollama 安裝檔 + 模型檔,打包後搬入,路徑正確就能跑
🇨🇳工廠中文場景建議選 qwen2.5:7b:中文能力最強,8GB RAM 可跑,是工廠離線 AI 的首選模型
⚙️設定 systemd service 讓 Ollama 開機自啟,配合 OLLAMA_HOST=0.0.0.0 讓內網其他機器可以存取
AI 離線部署
Ollama
LLM
Docker
Air-gapped
qwen2.5
EP.02