人工智能的LLM、PLM與NLP之分別

2025年12月01日 · 作者: alexbeebie · 專欄: 當下科技

學習人工智能，往往會被一些術語弄得暈頭轉向，最典型就是這三個：

LLM: 大型語言模型

PLM: 預訓練語言模型

NLP: 自然語言處理

讓我們來說說分別：

1) LLM: 大型語言模型想像一下，你有一個大腦，但它是新生兒的大腦，它有神經元和連接（架構），但一無所知，不懂英語、數學，也不懂事實。用人工智能技術術語來說，這是一個未經訓練的神經網路，只是一個內部包含隨機數的數學結構（程式碼）。

這是一個 LLM 嗎？從技術上講，是的；但它毫無用處。它會說話嗎？不。如果你問它「你好」，它會輸出類似「z7k#b@」的隨機雜訊。

過往，LLM 多採用RNNs 和LSTMs 架構，但自2017年，無論GPT、BERT、Llama、Claude 和Gemini 等等，都使用transformer這架構。

2) PLM: 預訓練語言模型

我們讓這個空空如也的大腦閱讀整個網路（維基百科、書籍、Reddit、程式碼）長達數月，這個過程會將盒子裡的隨機數轉換成有組織的模式，它會學習到「國王」和「王后」是相關的；它會學習到程式設計師在「if」之後通常會輸入「else」。

要注意的是，我們並非像把檔案儲存到硬碟上那樣「把內容放進盒子裡」，這「盒子」會消化這些內容，它不會完美地記住每一個句子，但它會學習單字的統計機率。

經訓練後，現在你得到了一個預訓練語言模型（PLM），類似原始的GPT-4般。

這階段還可能有進一步的多層微調，特別是一些專業資料的訓練。

3) NLP: 自然語言處理

就是這些模型的實際應用，當中包括很多實際用例，如聊天機人、電子郵件篩選器、智慧助理等等。

我們再打一個比喻加以闡䆁。

1) 神經網路架構：大腦的物理結構。

2) 預訓練：中小學和大學教育，學習通識知識、閱讀、寫作和數學。

微調：職業訓練，學習如何為特定公司報稅或編寫程式碼。

3) 應用：實際工作。

一言以蔽之，語言模型 (LLM) 是一個空的數學結構，然後用資料訓練它，產生一個預訓練語言模型(PLM)，再透過人類回饋改進該模型，產生 ChatGPT/Claude等等模型，最後，就在現實用例上應用(NLP)。

0 likes

留言 (0)

還沒有留言，成為第一個留言的人吧！

您必須登入才能留言。