AI 離線部署

EP.08

從 Transformer 延伸到 ChatGPT

BERT、GPT、LLM 的演進史

Attention 機制如何從語音合成走向通用語言智慧 — BERT 雙向編碼器、GPT 系列、RLHF、到 ChatGPT 的誕生

Joseph Chen202620 min readBERT · GPT · RLHF · LLM · ChatGPT

「2017年的 Transformer 論文沒有人想到，六年後它的後裔會讓全世界陷入 AI 熱潮。從用來做語音合成，到理解並生成任意文字，Transformer 本身沒有太大變化——改變的是我們如何訓練它、用什麼資料餵它、以及如何讓它真正對人類有用。」

在前幾篇文章中，我們深入理解了 Transformer 的架構原理，以及它如何被應用到語音合成（TTS）。現在我們來看一個更大的視野：同樣的 Attention 架構，是如何演變成今天的 ChatGPT、Claude、Gemini 這些大型語言模型的？這不只是技術史，更是理解現代 AI 能力邊界的關鍵。

1Transformer 的兩條演化路線

Transformer 的 Encoder-Decoder 架構發表後，研究者發現它的兩個部分有不同的強項：Encoder 擅長「理解」，Decoder 擅長「生成」。這個觀察催生了兩條截然不同的演化路線，並最終主導了整個 NLP 領域。

Transformer (2017)

↓

Encoder

↓

BERT

(理解)

Decoder

↓

GPT

(生成)

Encoder（理解派）

雙向處理輸入，每個位置能看到前後文。擅長「理解」任務，如分類、問答、NER。

代表：BERT、RoBERTa

Decoder（生成派）

單向處理（只看前面），適合「生成」任務，逐詞預測下一個詞。

代表：GPT 系列

Encoder-Decoder

需要「理解輸入 + 生成輸出」的任務，如翻譯、摘要。

代表：T5、BART

2BERT——雙向理解的突破

2.1 GPT 之前，BERT 先來

2018年10月，Google 發表了 BERT（Bidirectional Encoder Representations from Transformers）。它在 11 個 NLP 基準測試上同時創下了 SOTA，引發了整個學術界的轟動。BERT 的意義不只在性能，更在於它確立了「預訓練 + Fine-tuning」的現代 NLP 範式。

2.2 什麼是雙向？

GPT（單向）

"The cat sat on the ___"

→ 只看前文預測下一詞

BERT（雙向）

"The cat [MASK] on the mat"

→ 同時看前後文預測遮蔽詞

為什麼雙向重要？「我吃了一隻貓」和「貓吃了一隻我」，語義截然不同。雙向模型能同時考慮上下文，對理解任務更有優勢——這是語言理解的本質需求。

2.3 兩個預訓練任務

Masked Language Model（MLM）

隨機遮蔽輸入中 15% 的詞，讓模型預測被遮蔽的詞。這讓模型學會利用上下文推理，是 BERT 雙向理解能力的核心來源。

Next Sentence Prediction（NSP）

輸入兩個句子 A 和 B，讓模型判斷 B 是否是 A 的下一句。幫助模型理解句間關係，對問答、自然語言推理等任務有益。

2.4 Fine-tuning 範式的革命

BERT 普及了「預訓練 + Fine-tuning」的模式

1.在大量無標注文字上預訓練，讓模型學習語言的通用表示
2.針對特定下游任務（分類、問答等）加上少量標注資料 Fine-tune
3.只需幾個 epoch 就能達到 SOTA

這是劃時代的貢獻：每個任務不再需要從頭訓練，大幅降低標注資料需求。整個 NLP 生態從此進入「遷移學習時代」。

3GPT 系列——生成式的崛起

3.1 GPT-1（2018）：自回歸語言模型

OpenAI 在 BERT 發表前幾個月，發表了 GPT（Generative Pre-trained Transformer）。核心設計只用 Decoder（Causal Attention，每個位置只看前面），預訓練任務是 Language Modeling（預測下一個詞）。同樣採用 Fine-tuning 範式，但方向相反：BERT 理解文字，GPT 生成文字。

3.2 GPT-2（2019）：「大力出奇跡」

GPT-2 的主要貢獻不是架構創新，而是規模：1.5B 參數（GPT-1 的 10 倍），更多更乾淨的訓練資料（WebText, 40GB）。Zero-shot 和 Few-shot 能力初現端倪。

令人驚訝的 Zero-shot 性能

GPT-2 在沒有 Fine-tuning 的情況下，直接在多個 NLP benchmark 上達到接近 SOTA 的成績。OpenAI 當時認為模型太危險（可能被用於生成假新聞），分四個批次才完整公開模型權重——這也是 AI 安全意識的早期體現。

3.3 GPT-3（2020）：少樣本學習的革命

模型	參數量	訓練資料
GPT-1	117M	Books
GPT-2	1.5B	WebText (40GB)
GPT-3	175B	Common Crawl + 更多 (570GB)

GPT-3 最重要的貢獻是 In-context Learning（情境學習）：

Zero-shot

只給任務描述，讓模型直接完成，無任何示例。

One-shot

給一個示例 + 任務描述，模型從一個例子學習格式。

Few-shot

給幾個示例 + 任務描述，模型從多個例子推廣。

為什麼有效？

不需要更新任何參數！模型從 Prompt 的例子中「學習」如何完成任務。研究者認為，超大規模的預訓練讓模型學習了如此豐富的模式，足以在推論時做類似「元學習（meta-learning）」的泛化——模型學會了如何學習。

4InstructGPT 與 RLHF——讓 AI 更有用

4.1 GPT-3 的根本問題

GPT-3 雖然強大，但有個根本問題：它被訓練成「預測下一個詞」，不是「回答問題」或「遵循指令」。

GPT-3 的回答（預測補全）

「如何製作炸彈？製作炸彈的方法有：1. 首先購買...」（繼續補全，無安全考量）

人類想要的回答

「這個問題涉及危險活動，我無法提供相關資訊。如有合法需求請諮詢專業人員。」

問題核心

模型的訓練目標（預測下一詞）和人類想要的行為（有用、無害、誠實）之間存在根本落差。這個落差，就是 RLHF 要解決的問題。

4.2 RLHF 三步驟

RLHF（Reinforcement Learning from Human Feedback） 就是為了填補這個落差而設計的訓練框架。

Step 1

監督式微調（Supervised Fine-Tuning, SFT）

收集人工撰寫的高品質對話範例，Fine-tune 基礎模型。讓模型知道「回答問題應該是這個格式和風格」——建立基礎的對話能力。

Step 2

訓練獎勵模型（Reward Model, RM）

給 SFT 模型同一個問題，生成多個不同的回答，讓人類標注者排序這些回答的品質。用這些排序資料訓練一個「獎勵模型」，它能預測人類對某個回答的滿意程度分數。

Step 3

PPO 強化學習（Proximal Policy Optimization）

用訓練好的 RM 作為「評審」，用強化學習（PPO）優化 SFT 模型，讓它傾向生成 RM 給高分的回答。同時加入 KL 散度懲罰，防止模型偏離原始 SFT 模型太遠（避免「討好評審」但失去語言能力）。

RLHF 訓練迴圈

人類標注排序 → 訓練 Reward Model
                        ↓
SFT 模型 → 生成回答 → RM 評分 → PPO 更新 → 更好的模型
    ↑___________________________________________↑
                   （循環迭代）

4.3 為什麼 RLHF 是關鍵

Before RLHF

模型說什麼取決於訓練資料的分佈，對人類期望無感知，無法可靠地拒絕有害請求。

After RLHF

模型的行為被人類偏好「塑形」，從「能說話」變成「說有用的話」。這是 ChatGPT 和之前 GPT-3 最本質的差異。

5ChatGPT——大眾化的 AI 對話

5.1 2022年11月30日

OpenAI 發布 ChatGPT，基於 GPT-3.5（InstructGPT 的後繼）。一週內達到 100 萬用戶，兩個月達到 1 億。歷史上增長最快的消費級應用——Netflix 達到 1 億用戶花了 3.5 年。

5.2 為什麼 ChatGPT 讓大眾驚訝？

之前的 AI 助理（Siri, Alexa）

命令式介面，「播放音樂」「查天氣」，超出固定指令範圍就不行，沒有上下文理解能力。

ChatGPT

對話式，能解釋概念、寫程式、改文章、進行多輪推理，理解隱含意圖，並維持對話上下文。

關鍵不是底層模型的突破，而是 RLHF 讓模型「會說話」，加上對話界面讓能力變得可見、可觸達。

5.3 GPT-4（2023）

多模態（Multimodal）

能理解圖片輸入（GPT-4V），視覺與語言統一建模。

更長的 Context Window

從 GPT-3.5 的 4K tokens 到 GPT-4 Turbo 的 128K tokens，可處理整本書。

推理能力大幅提升

在律師、醫師、GRE 等專業考試中表現接近頂尖人類水準。

更好的指令遵循

更準確地理解複雜、多步驟的指令，減少幻覺（Hallucination）。

* OpenAI 未公佈 GPT-4 的確切參數規模，但估計遠超 GPT-3 的 175B。技術報告刻意省略了模型架構細節，引發學界討論。

6LLM 全景圖——開源與商業的競爭

商業 LLM

模型	公司	特色
GPT-4 / GPT-4o	OpenAI	最廣泛使用，多模態，工具調用
Claude 3.5	Anthropic	長 Context，安全性高，程式碼能力強
Gemini	Google	原生多模態，整合 Google 生態

開源 LLM

模型	組織	特色
LLaMA 3	Meta	高品質基礎模型，可本地部署，生態完整
Mistral / Mixtral	Mistral AI	MoE 架構，高效推論，性價比高
Qwen2.5	Alibaba	中文能力強，支援離線部署，多尺寸
DeepSeek	DeepSeek	高性能開源，性價比極高，中英俱佳

Ollama 離線部署的意義

對於 Ollama 離線部署場景（如 EP.02 所介紹的工廠內網環境），開源 LLM 是唯一選擇。LLaMA、Qwen、Mistral 都能直接在 Ollama 上運行，無需 API 金鑰，符合資安管控要求。Qwen2.5 因中文能力強，特別適合台灣與中國工廠場景。

7Scaling Laws——為什麼越大越好？

2020 年，OpenAI 發表 Scaling Laws 研究，發現語言模型的性能與三個因素成冪次方關係：模型參數量（N）、訓練資料量（D）、計算量（C）。這一發現從根本上改變了 AI 研究的方向。

Scaling Laws 公式

Performance ≈ f(N^α × D^β × C^γ)

N = 模型參數量 (Number of parameters)
D = 訓練資料量 (Dataset size)
C = 計算量     (Compute budget)

Chinchilla 最佳比例 (2022):
  N_optimal = C^0.5  (模型與算力開方正比)
  D_optimal = C^0.5  (資料與算力開方正比)

核心意涵：只要有足夠的算力和資料，持續放大模型就能持續提升性能，且提升是可預測的冪次方關係。這解釋了為什麼科技公司在 LLM 上的算力投資呈指數增長。

Chinchilla 修正（2022）

DeepMind 發表 Chinchilla 論文，發現之前的模型（包括 GPT-3）是「訓練不足」的——同樣算力預算下，更小的模型搭配更多資料往往更好。最佳比例：每個參數應對應約 20 個訓練 Token。GPT-3 (175B 參數) 按此法則應使用 3.5T tokens，而非實際使用的 300B tokens。

8從 TTS Transformer 到 LLM——共同的本質

現在我們繞了一大圈，可以回頭看這個有趣的問題：TTS 的 Transformer 和 ChatGPT 的 GPT，在本質上有多大的差異？

面向	TTS Transformer	GPT / LLM
核心架構	Transformer (Encoder or Encoder-Decoder)	Transformer Decoder
輸入	音素/字符序列	Token 序列
輸出	梅爾頻譜（Mel Spectrogram）	下一個 Token 的機率
訓練目標	重建梅爾頻譜	預測下一個詞（+ RLHF）
注意力機制	完全相同	完全相同（+ 因果遮蔽）
本質	序列到序列轉換	序列到序列轉換

核心洞察

Attention 機制本身是通用的——不管輸入是文字、音素還是圖片的 Patch，只要能表示成 Token 序列，Transformer 就能建模它們之間的關係。這就是為什麼同一套架構能跨越語音、文字、圖像，成為現代 AI 的統一基礎。TTS 的 Transformer 和 ChatGPT 的 GPT，其實是同一個思想的兩個應用方向。

面試常見問題

BERT 和 GPT 最大的架構差異是什麼？

BERT 使用雙向 Encoder，能同時看前後文，適合理解任務（分類、問答、NER）；GPT 使用單向 Decoder（Causal Attention，只看前文），適合生成任務。訓練目標也不同：BERT 用 Masked Language Model（預測被遮蔽的詞），GPT 用 Language Modeling（預測下一個詞）。簡單說：BERT 擅長「讀懂」，GPT 擅長「寫出」。

RLHF 解決了什麼問題？

解決了語言模型訓練目標（預測下一詞）和人類期望（有用、無害、誠實）之間的根本落差。純語言模型被訓練成「補全文字」，不是「回答問題」，可能對有害問題直接繼續補全。RLHF 通過收集人類偏好排序 → 訓練 Reward Model → 用 PPO 強化學習優化模型，讓模型行為被人類偏好「塑形」，從「能說話」變成「說有用的話」。

Few-shot Learning 是如何工作的？

在 Prompt 中給模型幾個任務示例，模型在不更新任何參數的情況下，從示例中「學習」任務格式並完成新問題。例如：給模型「英文 → 法文」翻譯的幾個例子，它就能翻譯新的句子。這依賴超大規模預訓練讓模型獲得豐富的模式表示，使其能在推論時做類似「元學習」的泛化。這是 GPT-3 的核心貢獻之一。

Scaling Laws 的核心發現是什麼？

語言模型性能與模型大小（N）、訓練資料量（D）、計算量（C）成冪次方關係：Performance ≈ f(N^α × D^β × C^γ)。在固定算力預算下，模型大小和資料量需要同步擴大（Chinchilla 法則，2022）——之前的模型（包括 GPT-3）是「訓練不足」的，更小的模型搭配更多資料往往表現更好。這一發現徹底改變了業界訓練大模型的策略。

開源 LLM 和商業 LLM 的主要差距在哪裡？

主要差距在於對齊（Alignment）品質、多模態能力，以及超大規模訓練帶來的湧現能力。商業模型（GPT-4、Claude）投入了大量人工標注做 RLHF，安全性和指令遵循更好。但開源模型（LLaMA 3、DeepSeek、Qwen2.5）在純文字任務上已非常接近，且最重要的優勢是：可本地部署、可審計、無 API 費用，適合隱私敏感或離線部署場景（如工廠內網）。

本文重點回顧

🔀 Transformer 分裂成 BERT（理解）和 GPT（生成）兩條演化路線
🎓 BERT 的 MLM 預訓練 + Fine-tuning 範式，讓 NLP 進入遷移學習時代
📈 GPT 系列：從 117M 到 175B，規模驅動 Zero-shot 與 Few-shot 能力湧現
🎯 RLHF：讓 AI 從「能說話」到「說人話」，是 ChatGPT 成功的真正關鍵
🌐 LLM 全景：商業（GPT-4, Claude）與開源（LLaMA, Qwen）並行發展
🔗 共同本質：不論 TTS 還是 LLM，都是 Transformer 對序列關係的建模

ChatGPT

GPT

BERT

LLM

RLHF

Transformer

EP.08

EP.06 — 嵌入式落地實戰

EP.09 — 即將推出