學習人工智能,往往會被一些術語弄得暈頭轉向,最典型就是這三個:
LLM: 大型語言模型
PLM: 預訓練語言模型
NLP: 自然語言處理
讓我們來說說分別:
1) LLM: 大型語言模型 想像一下,你有一個大腦,但它是新生兒的大腦,它有神經元和連接(架構),但一無所知,不懂英語、數學,也不懂事實。用人工智能技術術語來說,這是一個未經訓練的神經網路,只是一個內部包含隨機數的數學結構(程式碼)。
這是一個 LLM 嗎?從技術上講,是的;但它毫無用處。它會說話嗎?不。如果你問它「你好」,它會輸出類似「z7k#b@」的隨機雜訊。
過往,LLM 多採用RNNs 和LSTMs 架構,但自2017年,無論GPT、BERT、Llama、Claude 和Gemini 等等,都 使用transformer這架構。
2) PLM: 預訓練語言模型
我們讓這個空空如也的大腦閱讀整個網路(維基百科、書籍、Reddit、程式碼)長達數月,這個過程會將盒子裡的隨機數轉換成有組織的模式,它會學習到「國王」和「王后」是相關的;它會學習到程式設計師在「if」之後通常會輸入「else」。
要注意的是,我們並非像把檔案儲存到硬碟上那樣「把內容放進盒子裡」,這「盒子」會消化這些內容,它不會完美地記住每一個句子,但它會學習單字的統計機率。
經訓練後,現在你得到了一個預訓練語言模型(PLM),類似原始的GPT-4般。
這階段還可能有進一步的多層微調,特別是一些專業資料的訓練。
3) NLP: 自然語言處理
就是這些模型的實際應用,當中包括很多實際用例,如聊天機人、電子郵件篩選器、智慧助理等等。
我們再打一個比喻加以闡䆁。
1) 神經網路架構:大腦的物理結構。
2) 預訓練:中小學和大學教育,學習通識知識、閱讀、寫作和數學。
微調:職業訓練,學習如何為特定公司報稅或編寫程式碼。
3) 應用:實際工作。
一言以蔽之,語言模型 (LLM) 是一個空的數學結構,然後用資料訓練它,產生一個預訓練語言模型(PLM),再透過人類回饋改進該模型,產生 ChatGPT/Claude等等模型,最後,就在現實用例上應用(NLP)。