從 Transformer 延伸到 ChatGPT
BERT、GPT、LLM 的演進史
Attention 機制如何從語音合成走向通用語言智慧 — BERT 雙向編碼器、GPT 系列、RLHF、到 ChatGPT 的誕生
「2017年的 Transformer 論文沒有人想到,六年後它的後裔會讓全世界陷入 AI 熱潮。從用來做語音合成,到理解並生成任意文字,Transformer 本身沒有太大變化——改變的是我們如何訓練它、用什麼資料餵它、以及如何讓它真正對人類有用。」
在前幾篇文章中,我們深入理解了 Transformer 的架構原理,以及它如何被應用到語音合成(TTS)。現在我們來看一個更大的視野:同樣的 Attention 架構,是如何演變成今天的 ChatGPT、Claude、Gemini 這些大型語言模型的?這不只是技術史,更是理解現代 AI 能力邊界的關鍵。
1Transformer 的兩條演化路線
Transformer 的 Encoder-Decoder 架構發表後,研究者發現它的兩個部分有不同的強項:Encoder 擅長「理解」,Decoder 擅長「生成」。這個觀察催生了兩條截然不同的演化路線,並最終主導了整個 NLP 領域。
Encoder(理解派)
雙向處理輸入,每個位置能看到前後文。擅長「理解」任務,如分類、問答、NER。
代表:BERT、RoBERTa
Decoder(生成派)
單向處理(只看前面),適合「生成」任務,逐詞預測下一個詞。
代表:GPT 系列
Encoder-Decoder
需要「理解輸入 + 生成輸出」的任務,如翻譯、摘要。
代表:T5、BART
2BERT——雙向理解的突破
2.1 GPT 之前,BERT 先來
2018年10月,Google 發表了 BERT(Bidirectional Encoder Representations from Transformers)。它在 11 個 NLP 基準測試上同時創下了 SOTA,引發了整個學術界的轟動。BERT 的意義不只在性能,更在於它確立了「預訓練 + Fine-tuning」的現代 NLP 範式。
2.2 什麼是雙向?
GPT(單向)
"The cat sat on the ___"
→ 只看前文預測下一詞
BERT(雙向)
"The cat [MASK] on the mat"
→ 同時看前後文預測遮蔽詞
為什麼雙向重要?「我吃了一隻貓」和「貓吃了一隻我」,語義截然不同。雙向模型能同時考慮上下文,對理解任務更有優勢——這是語言理解的本質需求。
2.3 兩個預訓練任務
Masked Language Model(MLM)
隨機遮蔽輸入中 15% 的詞,讓模型預測被遮蔽的詞。這讓模型學會利用上下文推理,是 BERT 雙向理解能力的核心來源。
Next Sentence Prediction(NSP)
輸入兩個句子 A 和 B,讓模型判斷 B 是否是 A 的下一句。幫助模型理解句間關係,對問答、自然語言推理等任務有益。
2.4 Fine-tuning 範式的革命
BERT 普及了「預訓練 + Fine-tuning」的模式
- 1.在大量無標注文字上預訓練,讓模型學習語言的通用表示
- 2.針對特定下游任務(分類、問答等)加上少量標注資料 Fine-tune
- 3.只需幾個 epoch 就能達到 SOTA
這是劃時代的貢獻:每個任務不再需要從頭訓練,大幅降低標注資料需求。整個 NLP 生態從此進入「遷移學習時代」。
3GPT 系列——生成式的崛起
3.1 GPT-1(2018):自回歸語言模型
OpenAI 在 BERT 發表前幾個月,發表了 GPT(Generative Pre-trained Transformer)。核心設計只用 Decoder(Causal Attention,每個位置只看前面),預訓練任務是 Language Modeling(預測下一個詞)。同樣採用 Fine-tuning 範式,但方向相反:BERT 理解文字,GPT 生成文字。
3.2 GPT-2(2019):「大力出奇跡」
GPT-2 的主要貢獻不是架構創新,而是規模:1.5B 參數(GPT-1 的 10 倍),更多更乾淨的訓練資料(WebText, 40GB)。Zero-shot 和 Few-shot 能力初現端倪。
令人驚訝的 Zero-shot 性能
GPT-2 在沒有 Fine-tuning 的情況下,直接在多個 NLP benchmark 上達到接近 SOTA 的成績。OpenAI 當時認為模型太危險(可能被用於生成假新聞),分四個批次才完整公開模型權重——這也是 AI 安全意識的早期體現。
3.3 GPT-3(2020):少樣本學習的革命
| 模型 | 參數量 | 訓練資料 |
|---|---|---|
| GPT-1 | 117M | Books |
| GPT-2 | 1.5B | WebText (40GB) |
| GPT-3 | 175B | Common Crawl + 更多 (570GB) |
GPT-3 最重要的貢獻是 In-context Learning(情境學習):
Zero-shot
只給任務描述,讓模型直接完成,無任何示例。
One-shot
給一個示例 + 任務描述,模型從一個例子學習格式。
Few-shot
給幾個示例 + 任務描述,模型從多個例子推廣。
為什麼有效?
不需要更新任何參數!模型從 Prompt 的例子中「學習」如何完成任務。研究者認為,超大規模的預訓練讓模型學習了如此豐富的模式,足以在推論時做類似「元學習(meta-learning)」的泛化——模型學會了如何學習。
4InstructGPT 與 RLHF——讓 AI 更有用
4.1 GPT-3 的根本問題
GPT-3 雖然強大,但有個根本問題:它被訓練成「預測下一個詞」,不是「回答問題」或「遵循指令」。
GPT-3 的回答(預測補全)
「如何製作炸彈?製作炸彈的方法有:1. 首先購買...」(繼續補全,無安全考量)
人類想要的回答
「這個問題涉及危險活動,我無法提供相關資訊。如有合法需求請諮詢專業人員。」
問題核心
模型的訓練目標(預測下一詞)和人類想要的行為(有用、無害、誠實)之間存在根本落差。這個落差,就是 RLHF 要解決的問題。
4.2 RLHF 三步驟
RLHF(Reinforcement Learning from Human Feedback) 就是為了填補這個落差而設計的訓練框架。
監督式微調(Supervised Fine-Tuning, SFT)
收集人工撰寫的高品質對話範例,Fine-tune 基礎模型。讓模型知道「回答問題應該是這個格式和風格」——建立基礎的對話能力。
訓練獎勵模型(Reward Model, RM)
給 SFT 模型同一個問題,生成多個不同的回答,讓人類標注者排序這些回答的品質。用這些排序資料訓練一個「獎勵模型」,它能預測人類對某個回答的滿意程度分數。
PPO 強化學習(Proximal Policy Optimization)
用訓練好的 RM 作為「評審」,用強化學習(PPO)優化 SFT 模型,讓它傾向生成 RM 給高分的回答。同時加入 KL 散度懲罰,防止模型偏離原始 SFT 模型太遠(避免「討好評審」但失去語言能力)。
RLHF 訓練迴圈
人類標注排序 → 訓練 Reward Model
↓
SFT 模型 → 生成回答 → RM 評分 → PPO 更新 → 更好的模型
↑___________________________________________↑
(循環迭代)4.3 為什麼 RLHF 是關鍵
Before RLHF
模型說什麼取決於訓練資料的分佈,對人類期望無感知,無法可靠地拒絕有害請求。
After RLHF
模型的行為被人類偏好「塑形」,從「能說話」變成「說有用的話」。這是 ChatGPT 和之前 GPT-3 最本質的差異。
5ChatGPT——大眾化的 AI 對話
5.1 2022年11月30日
OpenAI 發布 ChatGPT,基於 GPT-3.5(InstructGPT 的後繼)。一週內達到 100 萬用戶,兩個月達到 1 億。歷史上增長最快的消費級應用——Netflix 達到 1 億用戶花了 3.5 年。
5.2 為什麼 ChatGPT 讓大眾驚訝?
之前的 AI 助理(Siri, Alexa)
命令式介面,「播放音樂」「查天氣」,超出固定指令範圍就不行,沒有上下文理解能力。
ChatGPT
對話式,能解釋概念、寫程式、改文章、進行多輪推理,理解隱含意圖,並維持對話上下文。
關鍵不是底層模型的突破,而是 RLHF 讓模型「會說話」,加上對話界面讓能力變得可見、可觸達。
5.3 GPT-4(2023)
多模態(Multimodal)
能理解圖片輸入(GPT-4V),視覺與語言統一建模。
更長的 Context Window
從 GPT-3.5 的 4K tokens 到 GPT-4 Turbo 的 128K tokens,可處理整本書。
推理能力大幅提升
在律師、醫師、GRE 等專業考試中表現接近頂尖人類水準。
更好的指令遵循
更準確地理解複雜、多步驟的指令,減少幻覺(Hallucination)。
* OpenAI 未公佈 GPT-4 的確切參數規模,但估計遠超 GPT-3 的 175B。技術報告刻意省略了模型架構細節,引發學界討論。
6LLM 全景圖——開源與商業的競爭
商業 LLM
| 模型 | 公司 | 特色 |
|---|---|---|
| GPT-4 / GPT-4o | OpenAI | 最廣泛使用,多模態,工具調用 |
| Claude 3.5 | Anthropic | 長 Context,安全性高,程式碼能力強 |
| Gemini | 原生多模態,整合 Google 生態 |
開源 LLM
| 模型 | 組織 | 特色 |
|---|---|---|
| LLaMA 3 | Meta | 高品質基礎模型,可本地部署,生態完整 |
| Mistral / Mixtral | Mistral AI | MoE 架構,高效推論,性價比高 |
| Qwen2.5 | Alibaba | 中文能力強,支援離線部署,多尺寸 |
| DeepSeek | DeepSeek | 高性能開源,性價比極高,中英俱佳 |
Ollama 離線部署的意義
對於 Ollama 離線部署場景(如 EP.02 所介紹的工廠內網環境),開源 LLM 是唯一選擇。LLaMA、Qwen、Mistral 都能直接在 Ollama 上運行,無需 API 金鑰,符合資安管控要求。Qwen2.5 因中文能力強,特別適合台灣與中國工廠場景。
7Scaling Laws——為什麼越大越好?
2020 年,OpenAI 發表 Scaling Laws 研究,發現語言模型的性能與三個因素成冪次方關係:模型參數量(N)、訓練資料量(D)、計算量(C)。這一發現從根本上改變了 AI 研究的方向。
核心意涵:只要有足夠的算力和資料,持續放大模型就能持續提升性能,且提升是可預測的冪次方關係。這解釋了為什麼科技公司在 LLM 上的算力投資呈指數增長。
Chinchilla 修正(2022)
DeepMind 發表 Chinchilla 論文,發現之前的模型(包括 GPT-3)是「訓練不足」的——同樣算力預算下,更小的模型搭配更多資料往往更好。最佳比例:每個參數應對應約 20 個訓練 Token。GPT-3 (175B 參數) 按此法則應使用 3.5T tokens,而非實際使用的 300B tokens。
8從 TTS Transformer 到 LLM——共同的本質
現在我們繞了一大圈,可以回頭看這個有趣的問題:TTS 的 Transformer 和 ChatGPT 的 GPT,在本質上有多大的差異?
| 面向 | TTS Transformer | GPT / LLM |
|---|---|---|
| 核心架構 | Transformer (Encoder or Encoder-Decoder) | Transformer Decoder |
| 輸入 | 音素/字符序列 | Token 序列 |
| 輸出 | 梅爾頻譜(Mel Spectrogram) | 下一個 Token 的機率 |
| 訓練目標 | 重建梅爾頻譜 | 預測下一個詞(+ RLHF) |
| 注意力機制 | 完全相同 | 完全相同(+ 因果遮蔽) |
| 本質 | 序列到序列轉換 | 序列到序列轉換 |
核心洞察
Attention 機制本身是通用的——不管輸入是文字、音素還是圖片的 Patch,只要能表示成 Token 序列,Transformer 就能建模它們之間的關係。這就是為什麼同一套架構能跨越語音、文字、圖像,成為現代 AI 的統一基礎。TTS 的 Transformer 和 ChatGPT 的 GPT,其實是同一個思想的兩個應用方向。
面試常見問題
BERT 和 GPT 最大的架構差異是什麼?
BERT 使用雙向 Encoder,能同時看前後文,適合理解任務(分類、問答、NER);GPT 使用單向 Decoder(Causal Attention,只看前文),適合生成任務。訓練目標也不同:BERT 用 Masked Language Model(預測被遮蔽的詞),GPT 用 Language Modeling(預測下一個詞)。簡單說:BERT 擅長「讀懂」,GPT 擅長「寫出」。
RLHF 解決了什麼問題?
解決了語言模型訓練目標(預測下一詞)和人類期望(有用、無害、誠實)之間的根本落差。純語言模型被訓練成「補全文字」,不是「回答問題」,可能對有害問題直接繼續補全。RLHF 通過收集人類偏好排序 → 訓練 Reward Model → 用 PPO 強化學習優化模型,讓模型行為被人類偏好「塑形」,從「能說話」變成「說有用的話」。
Few-shot Learning 是如何工作的?
在 Prompt 中給模型幾個任務示例,模型在不更新任何參數的情況下,從示例中「學習」任務格式並完成新問題。例如:給模型「英文 → 法文」翻譯的幾個例子,它就能翻譯新的句子。這依賴超大規模預訓練讓模型獲得豐富的模式表示,使其能在推論時做類似「元學習」的泛化。這是 GPT-3 的核心貢獻之一。
Scaling Laws 的核心發現是什麼?
語言模型性能與模型大小(N)、訓練資料量(D)、計算量(C)成冪次方關係:Performance ≈ f(N^α × D^β × C^γ)。在固定算力預算下,模型大小和資料量需要同步擴大(Chinchilla 法則,2022)——之前的模型(包括 GPT-3)是「訓練不足」的,更小的模型搭配更多資料往往表現更好。這一發現徹底改變了業界訓練大模型的策略。
開源 LLM 和商業 LLM 的主要差距在哪裡?
主要差距在於對齊(Alignment)品質、多模態能力,以及超大規模訓練帶來的湧現能力。商業模型(GPT-4、Claude)投入了大量人工標注做 RLHF,安全性和指令遵循更好。但開源模型(LLaMA 3、DeepSeek、Qwen2.5)在純文字任務上已非常接近,且最重要的優勢是:可本地部署、可審計、無 API 費用,適合隱私敏感或離線部署場景(如工廠內網)。
本文重點回顧
- 🔀 Transformer 分裂成 BERT(理解)和 GPT(生成)兩條演化路線
- 🎓 BERT 的 MLM 預訓練 + Fine-tuning 範式,讓 NLP 進入遷移學習時代
- 📈 GPT 系列:從 117M 到 175B,規模驅動 Zero-shot 與 Few-shot 能力湧現
- 🎯 RLHF:讓 AI 從「能說話」到「說人話」,是 ChatGPT 成功的真正關鍵
- 🌐 LLM 全景:商業(GPT-4, Claude)與開源(LLaMA, Qwen)並行發展
- 🔗 共同本質:不論 TTS 還是 LLM,都是 Transformer 對序列關係的建模
上一篇
EP.06 — 嵌入式落地實戰
下一篇
EP.09 — 即將推出