Skip to main content

REDMADMEDIA 網誌

回前頁
人工智慧模型版本的更新,有甚麼改變? - 當下科技

人工智慧模型版本的更新,有甚麼改變?

· · 專欄: 當下科技

當 OpenAI 從 GPT-3.5 升級到 GPT-4,或者 Anthropic 從 Claude 2 升級到 Claude 3 時,它們進行了甚麼更新呢?

以下是對「更新」工作原理的詳細說明,區分了小版本更新和大版本升級。

1)「深入挖掘」(微調和資料更新)

通常發生在小版本更新中(例如,從 GPT-4 升級到 GPT-4 Turbo)。有時,他們會保留相同的「框架」(架構)和相同的基礎知識,但會改進我們之前討論過的「深度」層。

它們亦可能會意識到模型在 Python 程式設計方面表現不佳,需要透過提供更多高品質的 Python 問答範例來「深入挖掘」指令調優階段。

如果使用者抱怨模型過於懶惰或過於謙虛,開發者會調整對齊層(強化學習),這會改變模型的表達方式,但不會改變它所掌握的知識。

有時,開發者可以在不重建整個模型的情況下,用新資訊(例如最近的新聞)「修補」模型,但這在技術上難度較高,而且不如直接重新訓練常見。

2)「改變模型架構」(重新訓練)

通常發生在主版本升級時(例如,從 GPT-3 到 GPT-4),這是一個巨大的飛躍。當模型版本號升級時,開發者並非只對舊模型進行最佳化,他們通常會拋棄舊的「模型」,建造一個更大、更好的模型。

想像一下,舊模型有 10 億個連接(神經元),新模型可能擁有 1 兆個連接,較大的盒子可以容納更複雜的模式、細微差別和邏輯。

又或它們改變了數學運算。例如,它們可能會改變模型「關注」長文件的方式。例如舊模型在處理 3000 個單字後會忘記對話的開頭,新模型(例如 Claude 3 或 GPT-4o)的架構旨在記住 10 萬個以上的單字。這需要改變盒子的基本藍圖。

改變亦可以多模態,這是一項巨大的架構變革,如GPT-4o 能同時處理文字、音訊和圖像,這需要徹底重新設計神經網路的輸入和輸出。

3) 更好的「食物」(數據課程)

內容的品質亦是核心之一。從版本 1 升級到版本 2 時,開發者經常會意識到:「我們給上一版模型輸入了太多來自互聯網的垃圾數據。」為了進行更新,他們會更精心篩選資料。他們可能會使用教科書而不是 Reddit 評論。即使架構保持不變,輸入高品質的「食物」(數據)也能顯著提升模型的智慧程度。

因此,當我們看到更新時:

小更新(例如,“六月更新”):通常只是對現有模型進行「更深入的挖掘」(更好的微調/對齊)。

大更新(例如 GPT-5):通常涉及新的架構,更多的參數,與及「更好的內容」(使用更乾淨的資料從頭開始重新訓練)。

0 likes

推薦文章

當下商業登記數目增加並不是好徵兆

當下商業登記數目增加並不是好徵兆

雖則特首說得沒錯,商業登記數目要比過往多,但若拿這數據來抵銷實店的收縮狀況,藉以支持「香港經濟仍無大礙」這一論調,我個人認為就太過樂觀了,而實情也頗令人擔憂,究竟香港經濟何去何從! 當一盤實體…

中國新疆的盤龍古道

中國新疆的盤龍古道

盤龍古道是位於新疆喀什地區塔什庫爾干塔吉克自治縣的一條公路,以其壯觀的彎道和險峻的地勢而聞名,被譽為「高原天路」。 這條公路全長約36公里,卻擁有超過600個彎道,其中不乏180度的髮夾彎,從空中俯…

強我所難的投資問題(22/11/2025)

強我所難的投資問題(22/11/2025)

我很怕別人問我這樣的投資問題: 「後市不看好嗎?是要大調整到12月中嗎?」 「美股12月份不加息的話應該會繼續下跌吧?」 股市,瞬間萬變,今日不知明天事,你要我估計未來一星期走勢…

留言 (0)

還沒有留言,成為第一個留言的人吧!

發表留言

您必須登入才能留言。