AI 離線部署
EP.08

從 Transformer 延伸到 ChatGPT

BERT、GPT、LLM 的演進史

Attention 機制如何從語音合成走向通用語言智慧 — BERT 雙向編碼器、GPT 系列、RLHF、到 ChatGPT 的誕生

Joseph Chen202620 min readBERT · GPT · RLHF · LLM · ChatGPT

「2017年的 Transformer 論文沒有人想到,六年後它的後裔會讓全世界陷入 AI 熱潮。從用來做語音合成,到理解並生成任意文字,Transformer 本身沒有太大變化——改變的是我們如何訓練它、用什麼資料餵它、以及如何讓它真正對人類有用。」

在前幾篇文章中,我們深入理解了 Transformer 的架構原理,以及它如何被應用到語音合成(TTS)。現在我們來看一個更大的視野:同樣的 Attention 架構,是如何演變成今天的 ChatGPT、Claude、Gemini 這些大型語言模型的?這不只是技術史,更是理解現代 AI 能力邊界的關鍵。

1Transformer 的兩條演化路線

Transformer 的 Encoder-Decoder 架構發表後,研究者發現它的兩個部分有不同的強項:Encoder 擅長「理解」,Decoder 擅長「生成」。這個觀察催生了兩條截然不同的演化路線,並最終主導了整個 NLP 領域。

Transformer (2017)
Encoder
BERT
(理解)
Decoder
GPT
(生成)

Encoder(理解派)

雙向處理輸入,每個位置能看到前後文。擅長「理解」任務,如分類、問答、NER。

代表:BERT、RoBERTa

Decoder(生成派)

單向處理(只看前面),適合「生成」任務,逐詞預測下一個詞。

代表:GPT 系列

Encoder-Decoder

需要「理解輸入 + 生成輸出」的任務,如翻譯、摘要。

代表:T5、BART

2BERT——雙向理解的突破

2.1 GPT 之前,BERT 先來

2018年10月,Google 發表了 BERT(Bidirectional Encoder Representations from Transformers)。它在 11 個 NLP 基準測試上同時創下了 SOTA,引發了整個學術界的轟動。BERT 的意義不只在性能,更在於它確立了「預訓練 + Fine-tuning」的現代 NLP 範式。

2.2 什麼是雙向?

GPT(單向)

"The cat sat on the ___"

→ 只看前文預測下一詞

BERT(雙向)

"The cat [MASK] on the mat"

→ 同時看前後文預測遮蔽詞

為什麼雙向重要?「我吃了一隻貓」和「貓吃了一隻我」,語義截然不同。雙向模型能同時考慮上下文,對理解任務更有優勢——這是語言理解的本質需求。

2.3 兩個預訓練任務

Masked Language Model(MLM)

隨機遮蔽輸入中 15% 的詞,讓模型預測被遮蔽的詞。這讓模型學會利用上下文推理,是 BERT 雙向理解能力的核心來源。

Next Sentence Prediction(NSP)

輸入兩個句子 A 和 B,讓模型判斷 B 是否是 A 的下一句。幫助模型理解句間關係,對問答、自然語言推理等任務有益。

2.4 Fine-tuning 範式的革命

BERT 普及了「預訓練 + Fine-tuning」的模式

  1. 1.在大量無標注文字上預訓練,讓模型學習語言的通用表示
  2. 2.針對特定下游任務(分類、問答等)加上少量標注資料 Fine-tune
  3. 3.只需幾個 epoch 就能達到 SOTA

這是劃時代的貢獻:每個任務不再需要從頭訓練,大幅降低標注資料需求。整個 NLP 生態從此進入「遷移學習時代」。

3GPT 系列——生成式的崛起

3.1 GPT-1(2018):自回歸語言模型

OpenAI 在 BERT 發表前幾個月,發表了 GPT(Generative Pre-trained Transformer)。核心設計只用 Decoder(Causal Attention,每個位置只看前面),預訓練任務是 Language Modeling(預測下一個詞)。同樣採用 Fine-tuning 範式,但方向相反:BERT 理解文字,GPT 生成文字。

3.2 GPT-2(2019):「大力出奇跡」

GPT-2 的主要貢獻不是架構創新,而是規模:1.5B 參數(GPT-1 的 10 倍),更多更乾淨的訓練資料(WebText, 40GB)。Zero-shot 和 Few-shot 能力初現端倪。

令人驚訝的 Zero-shot 性能

GPT-2 在沒有 Fine-tuning 的情況下,直接在多個 NLP benchmark 上達到接近 SOTA 的成績。OpenAI 當時認為模型太危險(可能被用於生成假新聞),分四個批次才完整公開模型權重——這也是 AI 安全意識的早期體現。

3.3 GPT-3(2020):少樣本學習的革命

模型參數量訓練資料
GPT-1117MBooks
GPT-21.5BWebText (40GB)
GPT-3175BCommon Crawl + 更多 (570GB)

GPT-3 最重要的貢獻是 In-context Learning(情境學習)

Zero-shot

只給任務描述,讓模型直接完成,無任何示例。

One-shot

給一個示例 + 任務描述,模型從一個例子學習格式。

Few-shot

給幾個示例 + 任務描述,模型從多個例子推廣。

為什麼有效?

不需要更新任何參數!模型從 Prompt 的例子中「學習」如何完成任務。研究者認為,超大規模的預訓練讓模型學習了如此豐富的模式,足以在推論時做類似「元學習(meta-learning)」的泛化——模型學會了如何學習。

4InstructGPT 與 RLHF——讓 AI 更有用

4.1 GPT-3 的根本問題

GPT-3 雖然強大,但有個根本問題:它被訓練成「預測下一個詞」,不是「回答問題」或「遵循指令」。

GPT-3 的回答(預測補全)

「如何製作炸彈?製作炸彈的方法有:1. 首先購買...」(繼續補全,無安全考量)

人類想要的回答

「這個問題涉及危險活動,我無法提供相關資訊。如有合法需求請諮詢專業人員。」

問題核心

模型的訓練目標(預測下一詞)和人類想要的行為(有用、無害、誠實)之間存在根本落差。這個落差,就是 RLHF 要解決的問題。

4.2 RLHF 三步驟

RLHF(Reinforcement Learning from Human Feedback) 就是為了填補這個落差而設計的訓練框架。

Step 1

監督式微調(Supervised Fine-Tuning, SFT)

收集人工撰寫的高品質對話範例,Fine-tune 基礎模型。讓模型知道「回答問題應該是這個格式和風格」——建立基礎的對話能力。

Step 2

訓練獎勵模型(Reward Model, RM)

給 SFT 模型同一個問題,生成多個不同的回答,讓人類標注者排序這些回答的品質。用這些排序資料訓練一個「獎勵模型」,它能預測人類對某個回答的滿意程度分數。

Step 3

PPO 強化學習(Proximal Policy Optimization)

用訓練好的 RM 作為「評審」,用強化學習(PPO)優化 SFT 模型,讓它傾向生成 RM 給高分的回答。同時加入 KL 散度懲罰,防止模型偏離原始 SFT 模型太遠(避免「討好評審」但失去語言能力)。

RLHF 訓練迴圈

人類標注排序 → 訓練 Reward Model
                        ↓
SFT 模型 → 生成回答 → RM 評分 → PPO 更新 → 更好的模型
    ↑___________________________________________↑
                   (循環迭代)

4.3 為什麼 RLHF 是關鍵

Before RLHF

模型說什麼取決於訓練資料的分佈,對人類期望無感知,無法可靠地拒絕有害請求。

After RLHF

模型的行為被人類偏好「塑形」,從「能說話」變成「說有用的話」。這是 ChatGPT 和之前 GPT-3 最本質的差異。

5ChatGPT——大眾化的 AI 對話

5.1 2022年11月30日

OpenAI 發布 ChatGPT,基於 GPT-3.5(InstructGPT 的後繼)。一週內達到 100 萬用戶,兩個月達到 1 億。歷史上增長最快的消費級應用——Netflix 達到 1 億用戶花了 3.5 年。

5.2 為什麼 ChatGPT 讓大眾驚訝?

之前的 AI 助理(Siri, Alexa)

命令式介面,「播放音樂」「查天氣」,超出固定指令範圍就不行,沒有上下文理解能力。

ChatGPT

對話式,能解釋概念、寫程式、改文章、進行多輪推理,理解隱含意圖,並維持對話上下文。

關鍵不是底層模型的突破,而是 RLHF 讓模型「會說話」,加上對話界面讓能力變得可見、可觸達。

5.3 GPT-4(2023)

多模態(Multimodal)

能理解圖片輸入(GPT-4V),視覺與語言統一建模。

更長的 Context Window

從 GPT-3.5 的 4K tokens 到 GPT-4 Turbo 的 128K tokens,可處理整本書。

推理能力大幅提升

在律師、醫師、GRE 等專業考試中表現接近頂尖人類水準。

更好的指令遵循

更準確地理解複雜、多步驟的指令,減少幻覺(Hallucination)。

* OpenAI 未公佈 GPT-4 的確切參數規模,但估計遠超 GPT-3 的 175B。技術報告刻意省略了模型架構細節,引發學界討論。

6LLM 全景圖——開源與商業的競爭

商業 LLM

模型公司特色
GPT-4 / GPT-4oOpenAI最廣泛使用,多模態,工具調用
Claude 3.5Anthropic長 Context,安全性高,程式碼能力強
GeminiGoogle原生多模態,整合 Google 生態

開源 LLM

模型組織特色
LLaMA 3Meta高品質基礎模型,可本地部署,生態完整
Mistral / MixtralMistral AIMoE 架構,高效推論,性價比高
Qwen2.5Alibaba中文能力強,支援離線部署,多尺寸
DeepSeekDeepSeek高性能開源,性價比極高,中英俱佳

Ollama 離線部署的意義

對於 Ollama 離線部署場景(如 EP.02 所介紹的工廠內網環境),開源 LLM 是唯一選擇。LLaMA、Qwen、Mistral 都能直接在 Ollama 上運行,無需 API 金鑰,符合資安管控要求。Qwen2.5 因中文能力強,特別適合台灣與中國工廠場景。

7Scaling Laws——為什麼越大越好?

2020 年,OpenAI 發表 Scaling Laws 研究,發現語言模型的性能與三個因素成冪次方關係:模型參數量(N)、訓練資料量(D)、計算量(C)。這一發現從根本上改變了 AI 研究的方向。

Scaling Laws 公式
Performance ≈ f(N^α × D^β × C^γ)

N = 模型參數量 (Number of parameters)
D = 訓練資料量 (Dataset size)
C = 計算量     (Compute budget)

Chinchilla 最佳比例 (2022):
  N_optimal = C^0.5  (模型與算力開方正比)
  D_optimal = C^0.5  (資料與算力開方正比)

核心意涵:只要有足夠的算力和資料,持續放大模型就能持續提升性能,且提升是可預測的冪次方關係。這解釋了為什麼科技公司在 LLM 上的算力投資呈指數增長。

Chinchilla 修正(2022)

DeepMind 發表 Chinchilla 論文,發現之前的模型(包括 GPT-3)是「訓練不足」的——同樣算力預算下,更小的模型搭配更多資料往往更好。最佳比例:每個參數應對應約 20 個訓練 Token。GPT-3 (175B 參數) 按此法則應使用 3.5T tokens,而非實際使用的 300B tokens。

8從 TTS Transformer 到 LLM——共同的本質

現在我們繞了一大圈,可以回頭看這個有趣的問題:TTS 的 Transformer 和 ChatGPT 的 GPT,在本質上有多大的差異?

面向TTS TransformerGPT / LLM
核心架構Transformer (Encoder or Encoder-Decoder)Transformer Decoder
輸入音素/字符序列Token 序列
輸出梅爾頻譜(Mel Spectrogram)下一個 Token 的機率
訓練目標重建梅爾頻譜預測下一個詞(+ RLHF)
注意力機制完全相同完全相同(+ 因果遮蔽)
本質序列到序列轉換序列到序列轉換

核心洞察

Attention 機制本身是通用的——不管輸入是文字、音素還是圖片的 Patch,只要能表示成 Token 序列,Transformer 就能建模它們之間的關係。這就是為什麼同一套架構能跨越語音、文字、圖像,成為現代 AI 的統一基礎。TTS 的 Transformer 和 ChatGPT 的 GPT,其實是同一個思想的兩個應用方向。

面試常見問題

Q

BERT 和 GPT 最大的架構差異是什麼?

A

BERT 使用雙向 Encoder,能同時看前後文,適合理解任務(分類、問答、NER);GPT 使用單向 Decoder(Causal Attention,只看前文),適合生成任務。訓練目標也不同:BERT 用 Masked Language Model(預測被遮蔽的詞),GPT 用 Language Modeling(預測下一個詞)。簡單說:BERT 擅長「讀懂」,GPT 擅長「寫出」。

Q

RLHF 解決了什麼問題?

A

解決了語言模型訓練目標(預測下一詞)和人類期望(有用、無害、誠實)之間的根本落差。純語言模型被訓練成「補全文字」,不是「回答問題」,可能對有害問題直接繼續補全。RLHF 通過收集人類偏好排序 → 訓練 Reward Model → 用 PPO 強化學習優化模型,讓模型行為被人類偏好「塑形」,從「能說話」變成「說有用的話」。

Q

Few-shot Learning 是如何工作的?

A

在 Prompt 中給模型幾個任務示例,模型在不更新任何參數的情況下,從示例中「學習」任務格式並完成新問題。例如:給模型「英文 → 法文」翻譯的幾個例子,它就能翻譯新的句子。這依賴超大規模預訓練讓模型獲得豐富的模式表示,使其能在推論時做類似「元學習」的泛化。這是 GPT-3 的核心貢獻之一。

Q

Scaling Laws 的核心發現是什麼?

A

語言模型性能與模型大小(N)、訓練資料量(D)、計算量(C)成冪次方關係:Performance ≈ f(N^α × D^β × C^γ)。在固定算力預算下,模型大小和資料量需要同步擴大(Chinchilla 法則,2022)——之前的模型(包括 GPT-3)是「訓練不足」的,更小的模型搭配更多資料往往表現更好。這一發現徹底改變了業界訓練大模型的策略。

Q

開源 LLM 和商業 LLM 的主要差距在哪裡?

A

主要差距在於對齊(Alignment)品質、多模態能力,以及超大規模訓練帶來的湧現能力。商業模型(GPT-4、Claude)投入了大量人工標注做 RLHF,安全性和指令遵循更好。但開源模型(LLaMA 3、DeepSeek、Qwen2.5)在純文字任務上已非常接近,且最重要的優勢是:可本地部署、可審計、無 API 費用,適合隱私敏感或離線部署場景(如工廠內網)。

本文重點回顧

  • 🔀 Transformer 分裂成 BERT(理解)和 GPT(生成)兩條演化路線
  • 🎓 BERT 的 MLM 預訓練 + Fine-tuning 範式,讓 NLP 進入遷移學習時代
  • 📈 GPT 系列:從 117M 到 175B,規模驅動 Zero-shot 與 Few-shot 能力湧現
  • 🎯 RLHF:讓 AI 從「能說話」到「說人話」,是 ChatGPT 成功的真正關鍵
  • 🌐 LLM 全景:商業(GPT-4, Claude)與開源(LLaMA, Qwen)並行發展
  • 🔗 共同本質:不論 TTS 還是 LLM,都是 Transformer 對序列關係的建模
ChatGPT
GPT
BERT
LLM
RLHF
Transformer
AI
EP.08

上一篇

EP.06 — 嵌入式落地實戰

下一篇

EP.09 — 即將推出