Skip to main content

REDMADMEDIA 網誌

回前頁
大多數現代大型語言模型(LLM)都屬於Transformer架構 - 當下科技

大多數現代大型語言模型(LLM)都屬於Transformer架構

· · 專欄: 當下科技

準確來說,Transformer是架構(引擎設計​​),而LLM是應用(使用該引擎建造的車輛)。

Transformer是一種特定的深度學習架構,由Google研究人員在2017年著名的論文《注意力機制就是一切》(Attention Is All You Need)中提出。它依賴一種名為「自註意力機制」的機制來並行處理資料序列(例如文字),而不是順序處理。

LLM(大型語言模型)是一個通用術語,指的是經過大量文字資料訓練,能夠理解、產生和處理人類語言的AI模型。

Transformer與LLM的關係,你可以想像成「內燃機」與「跑車」之關係。

Transformer 是內燃機,一種特定的技術/設計,你可以用引擎製造汽車、卡車、船或發電機;同樣,你可以使用 Transformer 架構來建立 LLM(語言邏輯模型)、電腦視覺模型或蛋白質折疊模型(例如 AlphaFold)。

LLM 是跑車,是一種專門設計用於高速行駛的產品,大多數現代跑車都使用內燃機;同樣,大多數現代 LLM 都使用 Transformer,但並非所有 Transformer 都是 LLM。

Transformer 是一種 LLM,是錯誤概念,混淆的產生是因為如今幾乎所有著名的 LLM 都是基於 Transformer 架構建構的。

GPT(生成式預訓練 Transformer)其中的「T」正是 Transformer 的縮寫。

BERT(基於 Transformer 的雙向編碼器表示)也明確地以此命名。

Llama、Claude、Gemini這些都是以 Transformer 為基礎的模型。

是否可以在沒有 Transformer 的情況下建置 LLM?是可以的,2017 年之前,語言模型就已經存在,但它們使用的是不同的架構:

RNN(循環神經網路)

LSTM(長短期記憶網)

這些是過去的「大型語言模型」(LLM)(儘管當時它們通常不會被稱為「大型」,因為它們的可擴展性不如 Transformer);即使在今天,研究人員仍在嘗試使用非 Transformer 架構(例如 Mamba/SSM)來建構新型的 LLM。

正確的觀念是:Transformer 是建構大多數現代 LLM 所採用的架構。

0 likes

推薦文章

《本草綱目》認證的「駐顏酒」- 葡萄酒,從千年古酒到西餐的靈魂伴侶

《本草綱目》認證的「駐顏酒」- 葡萄酒,從千年古酒到西餐的靈魂伴侶

葡萄酒是中國古老的酒種,其歷史源遠流長。早在唐代,葡萄酒就已相當普及,王翰的《涼州詞》「葡萄美酒夜光杯,欲飲琵琶馬上催。醉臥沙場君莫笑,古來徵戰幾人回?」生動描繪了當時葡萄酒的盛行。《馬可·波羅遊記…

英國牆畫之都 Bristol (上)

英國牆畫之都 Bristol (上)

香港朋友可能都知道尖沙咀有條碧仙桃路 Bristol Road 吧!終於有幸來這個擁有如飲品或水果般中文名的Bristol了! Bristol是鄰近威爾斯的西南部城市,自中世紀後已是一個重要港…

廉頗藺相如列傳 - DSE中文科精讀

廉頗藺相如列傳 - DSE中文科精讀

原文 1) 廉頗者,趙之良將也。趙惠文王十六年,廉頗為趙將伐齊,大破之,取陽晉,拜為上卿,以勇氣聞於諸侯。 2) 藺相如者,趙人也,為趙宦者令繆賢舍人。 3) 趙…

留言 (0)

還沒有留言,成為第一個留言的人吧!

發表留言

您必須登入才能留言。