當 OpenAI 從 GPT-3.5 升級到 GPT-4,或者 Anthropic 從 Claude 2 升級到 Claude 3 時,它們進行了甚麼更新呢?
以下是對「更新」工作原理的詳細說明,區分了小版本更新和大版本升級。
1)「深入挖掘」(微調和資料更新)
通常發生在小版本更新中(例如,從 GPT-4 升級到 GPT-4 Turbo)。有時,他們會保留相同的「框架」(架構)和相同的基礎知識,但會改進我們之前討論過的「深度」層。
它們亦可能會意識到模型在 Python 程式設計方面表現不佳,需要透過提供更多高品質的 Python 問答範例來「深入挖掘」指令調優階段。
如果使用者抱怨模型過於懶惰或過於謙虛,開發者會調整對齊層(強化學習),這會改變模型的表達方式,但不會改變它所掌握的知識。
有時,開發者可以在不重建整個模型的情況下,用新資訊(例如最近的新聞)「修補」模型,但這在技術上難度較高,而且不如直接重新訓練常見。
2)「改變模型架構」(重新訓練)
通常發生在主版本升級時(例如,從 GPT-3 到 GPT-4),這是一個巨大的飛躍。當模型版本號升級時,開發者並非只對舊模型進行最佳化,他們通常會拋棄舊的「模型」,建造一個更大、更好的模型。
想像一下,舊模型有 10 億個連接(神經元),新模型可能擁有 1 兆個連接,較大的盒子可以容納更複雜的模式、細微差別和邏輯。
又或它們改變了數學運算。例如,它們可能會改變模型「關注」長文件的方式。例如舊模型在處理 3000 個單字後會忘記對話的開頭,新模型(例如 Claude 3 或 GPT-4o)的架構旨在記住 10 萬個以上的單字。這需要改變盒子的基本藍圖。
改變亦可以多模態,這是一項巨大的架構變革,如GPT-4o 能同時處理文字、音訊和圖像,這需要徹底重新設計神經網路的輸入和輸出。
3) 更好的「食物」(數據課程)
內容的品質亦是核心之一。從版本 1 升級到版本 2 時,開發者經常會意識到:「我們給上一版模型輸入了太多來自互聯網的垃圾數據。」為了進行更新,他們會更精心篩選資料。他們可能會使用教科書而不是 Reddit 評論。即使架構保持不變,輸入高品質的「食物」(數據)也能顯著提升模型的智慧程度。
因此,當我們看到更新時:
小更新(例如,“六月更新”):通常只是對現有模型進行「更深入的挖掘」(更好的微調/對齊)。
大更新(例如 GPT-5):通常涉及新的架構,更多的參數,與及「更好的內容」(使用更乾淨的資料從頭開始重新訓練)。