DeepSeek 在預訓練語言階段是否有任何創新？

2025年12月02日 · 作者: alexbeebie · 專欄: 當下科技

事實上，DeepSeek 在其大型語言模型 (LLM) 的預訓練階段引入了多項重要的創新和最佳化，尤其是在 DeepSeek-V2 和 DeepSeek-V3 模型中。

雖然許多 LLM 供應商遵循標準方案（例如標準 Transformer 架構和 AdamW 優化器），但 DeepSeek 透過大幅修改底層架構和訓練目標而脫穎而出，由此在顯著降低推理成本，與及在訓練預算的情況下，實現了高效能。

以下是 DeepSeek 在預訓練階段引入的具體創新：

1) 多頭潛在註意力機制 (MLA)

這可以說是 DeepSeek 最重要的架構創新，在 DeepSeek-V2 中引入。

在標準 Transformer 中，鍵值 (KV) 快取會隨著上下文長度和批次大小線性增長，這會在推理過程中造成巨大的記憶體瓶頸，限制了模型高效處理長上下文的能力。諸如分組查詢注意力機制 (GQA) 之類的標準解決方案雖然可以緩解這個問題，但仍需要大量的記憶體。

DeepSeek 的創新之處在於多頭潛在註意力機制 (MLA) ，將鍵值對壓縮成一個低秩的潛在向量，模型無需儲存完整的高維鍵值對，而是在預訓練期間將其投影到一個較小的潛在空間。

這大幅減少了鍵值快取的大小（與標準注意力機制相比，減少了約 93%），而效能並未顯著下降，這使得 DeepSeek 模型能夠比競爭對手更有效率地支援海量上下文視窗（高達 12.8 萬個 token）。

2) DeepSeek-MoE（專家混合模型）架構

雖然專家混合模型（MoE）並非新概念（由 Mixtral 和 GPT-4 推廣），但 DeepSeek 對其進行了改進，專門用於預訓練階段，以優化專家資源的利用。

在傳統的 MoE 中，任務被分配給少數專家（例如，前兩位專家）。常見的問題是「專家崩潰」，即少數專家承擔了所有工作，而其他專家則處於閒置狀態；或者「知識冗餘」，即多個專家學習相同的通用概念。

DeepSeek 的創新：他們引入了細粒度專家策略和共享專家隔離機制。所謂粒度專家，是他們沒有採用少數大型專家，而是將前饋網路（FFN）拆分成許多小型專家，這使得知識分佈更加專業化。

他們將特定專家指定為「共享」專家，這些專家始終對每個詞元保持啟動狀態，無論路由決策如何。這可以獨立於專門的路由專家來捕捉通用知識（句法、基本語法）。

這種架構使得預訓練階段的運算效率更高。例如，DeepSeek-V2 總共有 2,360 億個參數，但每個詞元僅啟動 210 億個參數，從而顯著加快了訓練和推理速度。

3) 多詞元預測 (MTP) 目標函數

此目標函數在 DeepSeek-V3 中引入，它改變了預訓練期間使用的基本損失函數。

標準的 LLM 使用「下一個詞元預測」（根據詞元 $0$ 到 $t$ 預測詞元 $t+1$），這是一種貪婪演算法，只關注近期，有時會導致局部不一致或缺乏長期規劃。

DeepSeek 的創新是多詞元預測 (MTP)，該模型不再只是預測下一個詞元，而是在預訓練的每個步驟中同時預測多個未來的詞元。

結果是更高的資料效率，模型能夠從每個訓練樣本中提取更多訊號；亦有更好的推理能力，透過強制模型「展望未來」，它能夠促進更好的規劃和邏輯一致性。

由此可見，DeepSeek 並非僅僅擴展現有架構，他們在註意力機制（MLA）、專家路由（DeepSeek-MoE）和訓練目標（MTP）方面引入了根本性的創新，這些創新高度重視效率——與西方同行相比，在顯著減少活動參數和記憶體佔用的情況下，實現了最先進的性能。

0 likes

留言 (0)

還沒有留言，成為第一個留言的人吧！

您必須登入才能留言。