陳憲億 Joseph Chen | Software Engineer & AI Developer

Joseph Chen

2025

12 min read

實戰筆記

上一篇說了 Air-gapped 是什麼、工廠為什麼需要離線 AI。這篇進入實作：如何用 Ollama 在本地跑 LLM，以及如何在完全離線的環境部署。

Ollama 是目前最方便的本地 LLM 執行工具，一個指令就能跑起 Llama 3、Qwen2、Gemma 2 等主流開源模型。但在離線環境裡，這個「一個指令」背後的準備工作需要仔細規劃。

Ollama 是什麼？

Ollama 是一個開源工具，讓你可以在本地機器上直接執行大型語言模型。它把模型管理、量化、推論引擎全部包裝好，提供一個類似 Docker 的使用體驗。

📦

模型管理

用 pull/list/rm 管理本地模型，和 docker 指令幾乎一樣直覺。

⚡

高效推論

底層用 llama.cpp，支援 CPU 和 GPU 加速，GGUF 格式模型量化後記憶體需求大幅降低。

🔌

OpenAI 相容 API

提供 REST API，格式與 OpenAI 完全相容，現有整合 ChatGPT 的程式碼幾乎不用改。

一般環境安裝（有網路）

先看有網路的情況，這是基礎，也讓你理解「離線版」要複製哪些步驟。

Step 1：安裝 Ollama

macOS / Linux

# macOS
curl -fsSL https://ollama.com/install.sh | sh

# Linux
curl -fsSL https://ollama.com/install.sh | sh

# Windows
# 直接下載 .exe 安裝檔

Step 2：下載並執行模型

terminal

# 下載並執行 Llama 3.2（3B 版，約 2GB）
ollama run llama3.2

# 下載 Qwen2.5（中文效果更好）
ollama run qwen2.5

# 列出本地模型
ollama list

# 查看模型資訊
ollama show llama3.2

Step 3：透過 API 呼叫

curl

# Ollama 原生 API
curl http://localhost:11434/api/generate \
  -d '{"model":"llama3.2","prompt":"你好","stream":false}'

# OpenAI 相容格式（Dify/LangChain 整合用這個）
curl http://localhost:11434/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "llama3.2",
    "messages": [{"role":"user","content":"你好"}]
  }'

離線環境部署：關鍵步驟

在沒有網路的環境，你需要事先在有網路的機器準備好所有東西，再搬進去。以下是完整流程：

⚠️前提：準備一台有網路的機器（系統架構最好和目標機相同，例如都是 Linux x86_64），用它下載所有需要的東西，打包後搬入離線環境。

在有網路的機器下載 Ollama 安裝檔

bash

# Linux x86_64
curl -L https://github.com/ollama/ollama/releases/latest/download/ollama-linux-amd64.tgz -o ollama-linux-amd64.tgz

# 或下載特定版本（推薦固定版本，避免更新問題）
curl -L https://github.com/ollama/ollama/releases/download/v0.3.14/ollama-linux-amd64.tgz -o ollama.tgz

在有網路的機器下載模型

bash

# 先在有網路的機器執行 ollama pull
ollama pull qwen2.5:7b

# 模型存放位置（macOS）
~/.ollama/models/

# 模型存放位置（Linux）
/usr/share/ollama/.ollama/models/

# 把整個 models 資料夾打包
tar -czf ollama-models.tar.gz ~/.ollama/models/

搬入離線環境並安裝

bash

# 解壓縮 Ollama
tar -xzf ollama-linux-amd64.tgz -C /usr/local/bin/

# 解壓縮模型到對應路徑
mkdir -p /usr/share/ollama/.ollama/
tar -xzf ollama-models.tar.gz -C /usr/share/ollama/

# 啟動 Ollama service
ollama serve &

# 驗證模型是否可用
ollama list
ollama run qwen2.5:7b "你好，請用中文回答"

設定為系統服務（開機自啟）

bash

# 建立 systemd service（Linux）
cat > /etc/systemd/system/ollama.service << 'EOF'
[Unit]
Description=Ollama Service
After=network-online.target

[Service]
ExecStart=/usr/local/bin/ollama serve
User=ollama
Group=ollama
Restart=always
RestartSec=3
Environment="OLLAMA_HOST=0.0.0.0:11434"

[Install]
WantedBy=multi-user.target
EOF

systemctl daemon-reload
systemctl enable ollama
systemctl start ollama

模型怎麼選？

在工廠環境，硬體規格通常受限。以下是我的選型經驗：

模型	大小	RAM 需求	中文能力	適合場景
qwen2.5:7b	~4.7 GB	8 GB+	⭐⭐⭐⭐⭐	工廠首選，中文最好
llama3.2:3b	~2 GB	4 GB+	⭐⭐⭐	硬體資源有限時
llama3.1:8b	~4.9 GB	8 GB+	⭐⭐⭐⭐	英文場景為主
gemma2:9b	~5.5 GB	8 GB+	⭐⭐⭐	代碼生成較強

💡實戰建議：工廠環境建議用 qwen2.5:7b。阿里巴巴開發，中文理解能力最強，7B 參數在 8GB RAM 的機器上跑得起來，處理中文 SOP 文件、工程報告效果明顯優於 Llama 系列。

這篇學到什麼

📦Ollama 把模型管理、推論引擎都包裝好，提供 Docker 風格的使用體驗和 OpenAI 相容 API

🔒離線部署的核心：在有網路的機器下載 Ollama 安裝檔 + 模型檔，打包後搬入，路徑正確就能跑

🇨🇳工廠中文場景建議選 qwen2.5:7b：中文能力最強，8GB RAM 可跑，是工廠離線 AI 的首選模型

⚙️設定 systemd service 讓 Ollama 開機自啟，配合 OLLAMA_HOST=0.0.0.0 讓內網其他機器可以存取

EP.01 — 什麼是 Air-gapped AI？

從工廠內網 LLM 說起

EP.03 — Dify 工作流程設計

打造可控的 AI Agent

AI 離線部署

Ollama

LLM

Docker

Air-gapped

qwen2.5

EP.02

Ollama 本地 LLM 部署全攻略含離線環境搬檔教學

Ollama 是什麼？

一般環境安裝（有網路）

離線環境部署：關鍵步驟

模型怎麼選？

這篇學到什麼

Ollama 本地 LLM 部署全攻略
含離線環境搬檔教學