Skip to main content

REDMADMEDIA 網誌

回前頁
DeepSeek 在預訓練語言階段是否有任何創新? - 當下科技

DeepSeek 在預訓練語言階段是否有任何創新?

· · 專欄: 當下科技

事實上,DeepSeek 在其大型語言模型 (LLM) 的預訓練階段引入了多項重要的創新和最佳化,尤其是在 DeepSeek-V2 和 DeepSeek-V3 模型中。

雖然許多 LLM 供應商遵循標準方案(例如標準 Transformer 架構和 AdamW 優化器),但 DeepSeek 透過大幅修改底層架構和訓練目標而脫穎而出,由此在顯著降低推理成本,與及在訓練預算的情況下,實現了高效能。

以下是 DeepSeek 在預訓練階段引入的具體創新:

1) 多頭潛在註意力機制 (MLA)

這可以說是 DeepSeek 最重要的架構創新,在 DeepSeek-V2 中引入。

在標準 Transformer 中,鍵值 (KV) 快取會隨著上下文長度和批次大小線性增長,這會在推理過程中造成巨大的記憶體瓶頸,限制了模型高效處理長上下文的能力。諸如分組查詢注意力機制 (GQA) 之類的標準解決方案雖然可以緩解這個問題,但仍需要大量的記憶體。

DeepSeek 的創新之處在於多頭潛在註意力機制 (MLA) ,將鍵值對壓縮成一個低秩的潛在向量,模型無需儲存完整的高維鍵值對,而是在預訓練期間將其投影到一個較小的潛在空間。

這大幅減少了鍵值快取的大小(與標準注意力機制相比,減少了約 93%),而效能並未顯著下降,這使得 DeepSeek 模型能夠比競爭對手更有效率地支援海量上下文視窗(高達 12.8 萬個 token)。

2) DeepSeek-MoE(專家混合模型)架構

雖然專家混合模型(MoE)並非新概念(由 Mixtral 和 GPT-4 推廣),但 DeepSeek 對其進行了改進,專門用於預訓練階段,以優化專家資源的利用。

在傳統的 MoE 中,任務被分配給少數專家(例如,前兩位專家)。常見的問題是「專家崩潰」,即少數專家承擔了所有工作,而其他專家則處於閒置狀態;或者「知識冗餘」,即多個專家學習相同的通用概念。

DeepSeek 的創新:他們引入了細粒度專家策略和共享專家隔離機制。所謂粒度專家,是他們沒有採用少數大型專家,而是將前饋網路(FFN)拆分成許多小型專家,這使得知識分佈更加專業化。

他們將特定專家指定為「共享」專家,這些專家始終對每個詞元保持啟動狀態,無論路由決策如何。這可以獨立於專門的路由專家來捕捉通用知識(句法、基本語法)。

這種架構使得預訓練階段的運算效率更高。例如,DeepSeek-V2 總共有 2,360 億個參數,但每個詞元僅啟動 210 億個參數,從而顯著加快了訓練和推理速度。

3) 多詞元預測 (MTP) 目標函數

此目標函數在 DeepSeek-V3 中引入,它改變了預訓練期間使用的基本損失函數。

標準的 LLM 使用「下一個詞元預測」(根據詞元 $0$ 到 $t$ 預測詞元 $t+1$),這是一種貪婪演算法,只關注近期,有時會導致局部不一致或缺乏長期規劃。

DeepSeek 的創新是多詞元預測 (MTP),該模型不再只是預測下一個詞元,而是在預訓練的每個步驟中同時預測多個未來的詞元。

結果是更高的資料效率,模型能夠從每個訓練樣本中提取更多訊號;亦有更好的推理能力,透過強制模型「展望未來」,它能夠促進更好的規劃和邏輯一致性。

由此可見,DeepSeek 並非僅僅擴展現有架構,他們在註意力機制(MLA)、專家路由(DeepSeek-MoE)和訓練目標(MTP)方面引入了根本性的創新,這些創新高度重視效率——與西方同行相比,在顯著減少活動參數和記憶體佔用的情況下,實現了最先進的性能。

0 likes

推薦文章

預訓練語言模式(PLM) 與 Transformer 的關係

預訓練語言模式(PLM) 與 Transformer 的關係

Transformer 是預訓練語言模型 (PLM) 的基礎架構。它徹底改變了機器學習的建構和訓練方式,透過自監督學習技術,使模型能夠有效地從大型資料集中學習,從而改變了自然語言處理 (NLP) 領…

何謂量子坍縮?- 理解量子三部曲(2)

何謂量子坍縮?- 理解量子三部曲(2)

人世間,四週充斥著量子,微細得無形無相,一旦被「觀察」,這些量子就會「坍縮」下來,成為我們可見的事物。若萬事萬物也是這道理,那我們們的存在,也該是持續被觀察著,這位觀察著,該是上帝吧! 量子坍…

為何香港再無昔日的商業創意?- 自身的一段經歷說起

為何香港再無昔日的商業創意?- 自身的一段經歷說起

有些人感嘆,昔日香港的商業創意那裏去!!好像完全消失了。讓我說一個自身的經歷。 DSE開始後,我已半退出補習這產業(或可以這樣說該產業已消失),那時我只租了一個商務中心的小地方開個小教室來教就…

留言 (0)

還沒有留言,成為第一個留言的人吧!

發表留言

您必須登入才能留言。