Joseph Chen
2025
12 min read
實戰筆記
上一篇說了 Air-gapped 是什麼、工廠為什麼需要離線 AI。這篇進入實作:如何用 Ollama 在本地跑 LLM,以及如何在完全離線的環境部署。
Ollama 是目前最方便的本地 LLM 執行工具,一個指令就能跑起 Llama 3、Qwen2、Gemma 2 等主流開源模型。 但在離線環境裡,這個「一個指令」背後的準備工作需要仔細規劃。
Ollama 是什麼?
Ollama 是一個開源工具,讓你可以在本地機器上直接執行大型語言模型。 它把模型管理、量化、推論引擎全部包裝好,提供一個類似 Docker 的使用體驗。
📦
模型管理
用 pull/list/rm 管理本地模型,和 docker 指令幾乎一樣直覺。
⚡
高效推論
底層用 llama.cpp,支援 CPU 和 GPU 加速,GGUF 格式模型量化後記憶體需求大幅降低。
🔌
OpenAI 相容 API
提供 REST API,格式與 OpenAI 完全相容,現有整合 ChatGPT 的程式碼幾乎不用改。
一般環境安裝(有網路)
先看有網路的情況,這是基礎,也讓你理解「離線版」要複製哪些步驟。
Step 1:安裝 Ollama
macOS / Linux
Step 2:下載並執行模型
terminal
Step 3:透過 API 呼叫
curl
離線環境部署:關鍵步驟
在沒有網路的環境,你需要事先在有網路的機器準備好所有東西,再搬進去。以下是完整流程:
⚠️前提:準備一台有網路的機器(系統架構最好和目標機相同,例如都是 Linux x86_64), 用它下載所有需要的東西,打包後搬入離線環境。
01
在有網路的機器下載 Ollama 安裝檔
bash
02
在有網路的機器下載模型
bash
03
搬入離線環境並安裝
bash
04
設定為系統服務(開機自啟)
bash
模型怎麼選?
在工廠環境,硬體規格通常受限。以下是我的選型經驗:
| 模型 | 大小 | RAM 需求 | 中文能力 | 適合場景 |
|---|---|---|---|---|
| qwen2.5:7b | ~4.7 GB | 8 GB+ | ⭐⭐⭐⭐⭐ | 工廠首選,中文最好 |
| llama3.2:3b | ~2 GB | 4 GB+ | ⭐⭐⭐ | 硬體資源有限時 |
| llama3.1:8b | ~4.9 GB | 8 GB+ | ⭐⭐⭐⭐ | 英文場景為主 |
| gemma2:9b | ~5.5 GB | 8 GB+ | ⭐⭐⭐ | 代碼生成較強 |
💡實戰建議:工廠環境建議用 qwen2.5:7b。 阿里巴巴開發,中文理解能力最強,7B 參數在 8GB RAM 的機器上跑得起來, 處理中文 SOP 文件、工程報告效果明顯優於 Llama 系列。
這篇學到什麼
📦Ollama 把模型管理、推論引擎都包裝好,提供 Docker 風格的使用體驗和 OpenAI 相容 API
🔒離線部署的核心:在有網路的機器下載 Ollama 安裝檔 + 模型檔,打包後搬入,路徑正確就能跑
🇨🇳工廠中文場景建議選 qwen2.5:7b:中文能力最強,8GB RAM 可跑,是工廠離線 AI 的首選模型
⚙️設定 systemd service 讓 Ollama 開機自啟,配合 OLLAMA_HOST=0.0.0.0 讓內網其他機器可以存取
AI 離線部署
Ollama
LLM
Docker
Air-gapped
qwen2.5
EP.02