準確來說,Transformer是架構(引擎設計),而LLM是應用(使用該引擎建造的車輛)。
Transformer是一種特定的深度學習架構,由Google研究人員在2017年著名的論文《注意力機制就是一切》(Attention Is All You Need)中提出。它依賴一種名為「自註意力機制」的機制來並行處理資料序列(例如文字),而不是順序處理。
LLM(大型語言模型)是一個通用術語,指的是經過大量文字資料訓練,能夠理解、產生和處理人類語言的AI模型。
Transformer與LLM的關係,你可以想像成「內燃機」與「跑車」之關係。
Transformer 是內燃機,一種特定的技術/設計,你可以用引擎製造汽車、卡車、船或發電機;同樣,你可以使用 Transformer 架構來建立 LLM(語言邏輯模型)、電腦視覺模型或蛋白質折疊模型(例如 AlphaFold)。
LLM 是跑車,是一種專門設計用於高速行駛的產品,大多數現代跑車都使用內燃機;同樣,大多數現代 LLM 都使用 Transformer,但並非所有 Transformer 都是 LLM。
Transformer 是一種 LLM,是錯誤概念,混淆的產生是因為如今幾乎所有著名的 LLM 都是基於 Transformer 架構建構的。
GPT(生成式預訓練 Transformer)其中的「T」正是 Transformer 的縮寫。
BERT(基於 Transformer 的雙向編碼器表示)也明確地以此命名。
Llama、Claude、Gemini這些都是以 Transformer 為基礎的模型。
是否可以在沒有 Transformer 的情況下建置 LLM?是可以的,2017 年之前,語言模型就已經存在,但它們使用的是不同的架構:
RNN(循環神經網路)
LSTM(長短期記憶網)
這些是過去的「大型語言模型」(LLM)(儘管當時它們通常不會被稱為「大型」,因為它們的可擴展性不如 Transformer);即使在今天,研究人員仍在嘗試使用非 Transformer 架構(例如 Mamba/SSM)來建構新型的 LLM。
正確的觀念是:Transformer 是建構大多數現代 LLM 所採用的架構。