事實上,DeepSeek 在其大型語言模型 (LLM) 的預訓練階段引入了多項重要的創新和最佳化,尤其是在 DeepSeek-V2 和 DeepSeek-V3 模型中。
雖然許多 LLM 供應商遵循標準方案(例如標準 Transformer 架構和 AdamW 優化器),但 DeepSeek 透過大幅修改底層架構和訓練目標而脫穎而出,由此在顯著降低推理成本,與及在訓練預算的情況下,實現了高效能。
以下是 DeepSeek 在預訓練階段引入的具體創新:
1) 多頭潛在註意力機制 (MLA)
這可以說是 DeepSeek 最重要的架構創新,在 DeepSeek-V2 中引入。
在標準 Transformer 中,鍵值 (KV) 快取會隨著上下文長度和批次大小線性增長,這會在推理過程中造成巨大的記憶體瓶頸,限制了模型高效處理長上下文的能力。諸如分組查詢注意力機制 (GQA) 之類的標準解決方案雖然可以緩解這個問題,但仍需要大量的記憶體。
DeepSeek 的創新之處在於多頭潛在註意力機制 (MLA) ,將鍵值對壓縮成一個低秩的潛在向量,模型無需儲存完整的高維鍵值對,而是在預訓練期間將其投影到一個較小的潛在空間。
這大幅減少了鍵值快取的大小(與標準注意力機制相比,減少了約 93%),而效能並未顯著下降,這使得 DeepSeek 模型能夠比競爭對手更有效率地支援海量上下文視窗(高達 12.8 萬個 token)。
2) DeepSeek-MoE(專家混合模型)架構
雖然專家混合模型(MoE)並非新概念(由 Mixtral 和 GPT-4 推廣),但 DeepSeek 對其進行了改進,專門用於預訓練階段,以優化專家資源的利用。
在傳統的 MoE 中,任務被分配給少數專家(例如,前兩位專家)。常見的問題是「專家崩潰」,即少數專家承擔了所有工作,而其他專家則處於閒置狀態;或者「知識冗餘」,即多個專家學習相同的通用概念。
DeepSeek 的創新:他們引入了細粒度專家策略和共享專家隔離機制。所謂粒度專家,是他們沒有採用少數大型專家,而是將前饋網路(FFN)拆分成許多小型專家,這使得知識分佈更加專業化。
他們將特定專家指定為「共享」專家,這些專家始終對每個詞元保持啟動狀態,無論路由決策如何。這可以獨立於專門的路由專家來捕捉通用知識(句法、基本語法)。
這種架構使得預訓練階段的運算效率更高。例如,DeepSeek-V2 總共有 2,360 億個參數,但每個詞元僅啟動 210 億個參數,從而顯著加快了訓練和推理速度。
3) 多詞元預測 (MTP) 目標函數
此目標函數在 DeepSeek-V3 中引入,它改變了預訓練期間使用的基本損失函數。
標準的 LLM 使用「下一個詞元預測」(根據詞元 $0$ 到 $t$ 預測詞元 $t+1$),這是一種貪婪演算法,只關注近期,有時會導致局部不一致或缺乏長期規劃。
DeepSeek 的創新是多詞元預測 (MTP),該模型不再只是預測下一個詞元,而是在預訓練的每個步驟中同時預測多個未來的詞元。
結果是更高的資料效率,模型能夠從每個訓練樣本中提取更多訊號;亦有更好的推理能力,透過強制模型「展望未來」,它能夠促進更好的規劃和邏輯一致性。
由此可見,DeepSeek 並非僅僅擴展現有架構,他們在註意力機制(MLA)、專家路由(DeepSeek-MoE)和訓練目標(MTP)方面引入了根本性的創新,這些創新高度重視效率——與西方同行相比,在顯著減少活動參數和記憶體佔用的情況下,實現了最先進的性能。