Skip to main content

REDMADMEDIA 網誌

回前頁
人工智能的LLM、PLM與NLP之分別 - 當下科技

人工智能的LLM、PLM與NLP之分別

· · 專欄: 當下科技

學習人工智能,往往會被一些術語弄得暈頭轉向,最典型就是這三個:

LLM: 大型語言模型

PLM: 預訓練語言模型

NLP: 自然語言處理

讓我們來說說分別:

1) LLM: 大型語言模型 想像一下,你有一個大腦,但它是新生兒的大腦,它有神經元和連接(架構),但一無所知,不懂英語、數學,也不懂事實。用人工智能技術術語來說,這是一個未經訓練的神經網路,只是一個內部包含隨機數的數學結構(程式碼)。

這是一個 LLM 嗎?從技術上講,是的;但它毫無用處。它會說話嗎?不。如果你問它「你好」,它會輸出類似「z7k#b@」的隨機雜訊。

過往,LLM 多採用RNNs 和LSTMs 架構,但自2017年,無論GPT、BERT、Llama、Claude 和Gemini 等等,都 使用transformer這架構。

2) PLM: 預訓練語言模型

我們讓這個空空如也的大腦閱讀整個網路(維基百科、書籍、Reddit、程式碼)長達數月,這個過程會將盒子裡的隨機數轉換成有組織的模式,它會學習到「國王」和「王后」是相關的;它會學習到程式設計師在「if」之後通常會輸入「else」。

要注意的是,我們並非像把檔案儲存到硬碟上那樣「把內容放進盒子裡」,這「盒子」會消化這些內容,它不會完美地記住每一個句子,但它會學習單字的統計機率。

經訓練後,現在你得到了一個預訓練語言模型(PLM),類似原始的GPT-4般。

這階段還可能有進一步的多層微調,特別是一些專業資料的訓練。

3) NLP: 自然語言處理

就是這些模型的實際應用,當中包括很多實際用例,如聊天機人、電子郵件篩選器、智慧助理等等。

我們再打一個比喻加以闡䆁。

1) 神經網路架構:大腦的物理結構。

2) 預訓練:中小學和大學教育,學習通識知識、閱讀、寫作和數學。

微調:職業訓練,學習如何為特定公司報稅或編寫程式碼。

3) 應用:實際工作。

一言以蔽之,語言模型 (LLM) 是一個空的數學結構,然後用資料訓練它,產生一個預訓練語言模型(PLM),再透過人類回饋改進該模型,產生 ChatGPT/Claude等等模型,最後,就在現實用例上應用(NLP)。

0 likes

推薦文章

聽說甚麼東西通通也可回收!—— 北海道旭川車站二手商場Big Ban(ビッグバン)

聽說甚麼東西通通也可回收!—— 北海道旭川車站二手商場Big Ban(ビッグバン)

雖然「2nd street」快來香港,多了逛街的地方大家當然開心囉!但為人詬病的是,2nd street收二手衫收得好平,我朋友試過全新童裝回收價也是100円,有些新淨但無牌子的衫,收5円10円亦不…

中醫看心臟病-Mark哥醫師

中醫看心臟病-Mark哥醫師

心臟病是所有心臟疾病的統稱,可分爲冠心病、風濕性心臟病、高血壓性心臟病、心肌炎及先天性心臟病等各類型的心臟病。其中以冠心病最為常見,亦是心臟病死亡的主因。校長醫師建議大家從調節日常生活著手去防患於未…

運動養生-睡夢頻尿中斷睡眠怎麼辦?凱格爾運動(又稱骨盆肌運動)可改善 - Mark哥醫師

運動養生-睡夢頻尿中斷睡眠怎麼辦?凱格爾運動(又稱骨盆肌運動)可改善 - Mark哥醫師

凱格爾運動(Kegel exercise),又稱骨盆運動、骨盆底肌肉收縮運動,於1948年由美國Arnold Kegel阿諾·凱格爾醫生發表。他認為尿失禁尿頻其中一種原因是因為骨盆底肌肉的功能,以及…

留言 (0)

還沒有留言,成為第一個留言的人吧!

發表留言

您必須登入才能留言。