在進(jìn)行高達(dá)1500億美元的估值融資之際,OpenAI放出了一個(gè)大招,預(yù)熱了許久的“草莓”(Strawberry) 模型終于來(lái)了。 “需要耐心等待的時(shí)刻結(jié)束了。”該公司CEO山姆·奧特曼(Sam Altman)說(shuō)。這就是名為 o1的新模型,這次發(fā)布包括預(yù)覽版o1-preview和小尺寸版o1-mini。 OpenAI官方發(fā)文稱,新模型旨在解決復(fù)雜推理問(wèn)題,訓(xùn)練模型在響應(yīng)之前花更多時(shí)間思考,類似于人類的思考方式。 “新模型在推理能力上代表了AI能力的新水平。”OpenAI稱,該模型可以解決科學(xué)、編程和數(shù)學(xué)等更為復(fù)雜的任務(wù),且比此前的GPT-4o有顯著提升。 奧特曼發(fā)帖表示,“這是我們迄今為止功能最強(qiáng)大、最一致的模型,也是迄今為止我們最好的推理模型,這是新范式的開(kāi)始。” 推理能力吊打GPT-4o,數(shù)學(xué)編程能力“爆表” 新模型到底有多強(qiáng)?它在需要深入思考和邏輯推理的專業(yè)任務(wù)上不僅吊打GPT-4o,還超過(guò)了擁有博士學(xué)位的人類專家。 OpenAI表示,新模型在物理、化學(xué)和生物等學(xué)科的挑戰(zhàn)性基準(zhǔn)測(cè)試中,表現(xiàn)超過(guò)人類專家。在國(guó)際數(shù)學(xué)奧林匹克(IMO)資格考試中,新模型得分超83%,遠(yuǎn)高于GPT-4o的13%。在Codeforces編程競(jìng)賽中,o1模型的成績(jī)達(dá)到了前89%,而GPT-4o僅達(dá)到11%。
OpenAI表示, o1模型在推理能力上相比GPT-4o顯著進(jìn)步。綜合評(píng)測(cè)顯示,在絕大多數(shù)需要深入思考和復(fù)雜推理的任務(wù)中,新模型都展現(xiàn)出了明顯優(yōu)于GPT-4o的表現(xiàn),并在多個(gè)細(xì)分測(cè)試上超過(guò)90%。
在啟用視覺(jué)感知能力的情況下,o1模型在MMMU(多模態(tài)理解)測(cè)試中獲得了78.2%的高分,成為首個(gè)能與人類專家展開(kāi)競(jìng)爭(zhēng)的AI模型。 在 MMLU(大規(guī)模多任務(wù)語(yǔ)言理解)測(cè)試中,在總計(jì)57個(gè)子類別中,o1在54個(gè)類別上都超越了GPT-4o 的表現(xiàn)。 上述評(píng)測(cè)還顯示,o1模型在MMLU Categories中的高數(shù)測(cè)試正確率高達(dá)98%,且在ML Benchmarks中的數(shù)學(xué)測(cè)試相較GPT-4o獲得了超過(guò)34%的最大絕對(duì)性優(yōu)勢(shì),足以顯示o1模型是個(gè)數(shù)學(xué)超級(jí)“學(xué)霸”。 OpenAI還選擇了專為美國(guó)最優(yōu)秀的高中數(shù)學(xué)生而設(shè)計(jì)的高難度考試——美國(guó)數(shù)學(xué)邀請(qǐng)賽(AIME)作為基準(zhǔn),來(lái)測(cè)試模型的極限能力。 結(jié)果顯示,在2024年AIME考試中(15題),GPT-4o平均只解決了12%(答對(duì) 1.8 )的問(wèn)題,o1模型測(cè)試單次正確率高達(dá)74%,64次采樣的正確率提升至 83%,1000次采樣后使用學(xué)習(xí)型評(píng)分函數(shù)重新排序后的正確率高達(dá)93%, 即能答對(duì)13.9 題,躋身美國(guó)前500名學(xué)生之列,也超出美國(guó)數(shù)學(xué)奧林匹克競(jìng)賽的分?jǐn)?shù)線。 OpenAI進(jìn)一步將o1模型應(yīng)用于GPQA diamond 測(cè)試,其專門(mén)用于評(píng)估模型在化學(xué)、物理和生物學(xué)等領(lǐng)域的專業(yè)知識(shí)水平,并邀請(qǐng)了擁有相關(guān)領(lǐng)域博士學(xué)位的專家參與測(cè)試。 測(cè)試結(jié)果顯示,o1不僅成功完成了測(cè)試,更是超越了博士表現(xiàn),成為首個(gè)在GPQA diamond 基準(zhǔn)上擊敗人類專家的AI模型。 “這些結(jié)果并不意味著它在所有方面都比擁有博士學(xué)位的專家更強(qiáng),只是說(shuō)o1更擅長(zhǎng)解決一些博士能夠解決的特定問(wèn)題。”OpenAI稱。 在編程方面,OpenAI基于o1模型深度優(yōu)化和專項(xiàng)訓(xùn)練出一個(gè)新的AI模型,其在2024年國(guó)際信息學(xué)奧林匹克競(jìng)賽(IOI)獲得了213分的高分,躋身參賽者的前50%。 在Codeforces平臺(tái)的模擬競(jìng)爭(zhēng)性編程比賽中,該新模型超越了93%的人類競(jìng)爭(zhēng)者。相比之下,GPT-4o僅超過(guò)11%的人類競(jìng)爭(zhēng)者。
這些評(píng)測(cè)顯示出,新模型不僅在數(shù)學(xué)、編程等需要高推理能力的專業(yè)領(lǐng)域可比肩人類專家,同時(shí)在更為廣泛的多模態(tài)和語(yǔ)言理解方面也有更好表現(xiàn)。 OpenAI發(fā)布的一項(xiàng)匿名人類偏好評(píng)估顯示,o1-preview在數(shù)據(jù)分析、編碼和數(shù)學(xué)等推理密集型類別中,比GPT-4o更受歡迎,但在某些自然語(yǔ)言任務(wù)中,o1-preview并不是首選。這表明它并不適合所有用例,GPT-4o在文本生成方面仍保持優(yōu)勢(shì)。
OpenAI負(fù)責(zé)新模型研發(fā)的員工也提到,o1模型并不總是比GPT-4o更好,許多任務(wù)并不需要推理能力,有時(shí)等待o1的回應(yīng)相比快速獲得GPT-4o的回應(yīng)并不值得。 “作為早期模型,o1-preview還不具備ChatGPT的許多實(shí)用功能,如瀏覽網(wǎng)頁(yè)、上傳文件和圖片。對(duì)于許多常見(jiàn)情況,GPT-4o短期內(nèi)變得更加強(qiáng)大。但對(duì)于復(fù)雜的推理任務(wù)來(lái)說(shuō),這是一個(gè)重大進(jìn)步,代表了人工智能能力的新水平。”OpenAI表示。 強(qiáng)化學(xué)習(xí)+思維鏈加持,幻覺(jué)依然無(wú)法徹底解決 o1模型更強(qiáng)的推理能力得益于OpenAI開(kāi)發(fā)了一種創(chuàng)新的大規(guī)模強(qiáng)化學(xué)習(xí)算法。這種算法不僅能高效利用數(shù)據(jù),還能有效訓(xùn)練模型運(yùn)用思維鏈進(jìn)行推理思考。 這種訓(xùn)練的核心在于教會(huì)模型“如何思考”。因此,與傳統(tǒng)模型追求的快速響應(yīng)不同,新模型開(kāi)始學(xué)會(huì)慢思考——在回答之前,內(nèi)部進(jìn)行長(zhǎng)鏈條的思考和推理,確保生成內(nèi)容的質(zhì)量。在OpenAI的一項(xiàng)單詞推理測(cè)試中,o1-preview響應(yīng)時(shí)間達(dá)32秒,而GPT-4o僅需3秒。
“我們訓(xùn)練這些模型花更多的時(shí)間去思考問(wèn)題,然后再做出反應(yīng),就像人類一樣。”OpenAI稱,借助強(qiáng)化學(xué)習(xí)和思維鏈,新模型能完善自己的思維過(guò)程,具備自我檢查的能力,識(shí)別糾正出現(xiàn)的錯(cuò)誤,可以將復(fù)雜問(wèn)題進(jìn)行分解,并能在發(fā)現(xiàn)當(dāng)前方法無(wú)效時(shí)嘗試不同的策略。
OpenAI還發(fā)現(xiàn),隨著強(qiáng)化學(xué)習(xí)計(jì)算量的增加,以及模型思考時(shí)間的延長(zhǎng),o1的性能會(huì)不斷提高。這顯示新模型更多依賴計(jì)算資源和算法優(yōu)化,而傳統(tǒng)大語(yǔ)言模型預(yù)訓(xùn)練則依賴于海量數(shù)據(jù)的收集處理。 “這有很大不同,我們正深入研究這種新方法的擴(kuò)展限制。”OpenAI表示,模型思考的時(shí)間越長(zhǎng),在推理任務(wù)上的表現(xiàn)就越好。“這開(kāi)辟了一個(gè)新的擴(kuò)展維度,不再受預(yù)訓(xùn)練的瓶頸限制,現(xiàn)在也可以擴(kuò)展推理計(jì)算能力。” 得益于這些技術(shù)創(chuàng)新所帶來(lái)的能力,OpenAI將新模型計(jì)數(shù)器重置為 1,并命名為o1。 某種程度來(lái)說(shuō),這意味著大模型的“摩爾定律”Scaling Law有效,但重點(diǎn)已從堆數(shù)據(jù),轉(zhuǎn)移到堆算力和算法優(yōu)化方面,提高模型思考時(shí)間,可以說(shuō)是一條提升大模型能力的新路徑。 英偉達(dá)的科學(xué)家Jim Fan對(duì)此也點(diǎn)評(píng)稱,模型不僅僅擁有訓(xùn)練時(shí)的Scaling law,還擁有推理層面的Scaling law,雙曲線的共同增長(zhǎng),將突破大模型能力的提升瓶頸。 同時(shí),OpenAI表示,思維鏈推理為AI對(duì)齊和安全提供了新的機(jī)會(huì)。“這是教授模型人類價(jià)值觀和原則的有效方法,推理能力的提升有利于模型穩(wěn)健性,并使我們能夠以清晰的方式觀察模型思維的過(guò)程。” 不過(guò),這仍然無(wú)法徹底解決幻覺(jué)問(wèn)題,但思維鏈為AI的三大缺陷(不可信、不可控、不透明)提供了思路。它可以“讀取模型的思想”并理解其思維過(guò)程,檢測(cè)AI是否試圖操縱用戶,以及為 AI決策提供解釋性,增加透明度和可信度。 OpenAI總裁Greg Brockman也提到,這提供了新的安全機(jī)會(huì),公司正在積極探索,包括可靠性、幻覺(jué)和對(duì)抗攻擊者的魯棒性。 “在權(quán)衡了用戶體驗(yàn)、競(jìng)爭(zhēng)優(yōu)勢(shì)、思維鏈監(jiān)控和安全等在內(nèi)的多種因素后,我們決定不向用戶展示原始思維鏈。”OpenAI表示,o1模型會(huì)提供由模型生成的思維鏈摘要。 預(yù)覽版成本比GPT-4o貴三四倍,9.11和9.8誰(shuí)大仍翻車 “發(fā)布o(jì)1-preview的一個(gè)動(dòng)機(jī)是為了觀察哪些使用場(chǎng)景會(huì)變得流行,以及這些模型在哪些方面還需要改進(jìn)。”OpenAI員工稱。 該公司表示,新模型將為多個(gè)領(lǐng)域的專業(yè)人士帶來(lái)顯著助益,尤其是那些在科學(xué)研究、軟件開(kāi)發(fā)、數(shù)學(xué)計(jì)算等領(lǐng)域面臨復(fù)雜挑戰(zhàn)的領(lǐng)域,將是一個(gè)輔助工具。 ChatGPT Plus和Team用戶從今天開(kāi)始可以在ChatGPT 中訪問(wèn) o1 模型。ChatGPT Enterprise 和Edu用戶將從下周開(kāi)始獲得訪問(wèn)權(quán)限。 部分開(kāi)發(fā)者今日起也可使用o1-preview和o1-mini,速率限制為20 RPM。OpenAI計(jì)劃在未來(lái)向所有ChatGPT的免費(fèi)用戶開(kāi)放o1-mini的使用權(quán)。 對(duì)開(kāi)發(fā)者來(lái)說(shuō),使用o1模型要付出更高的價(jià)格。目前,o1-preview輸入定價(jià)15美元/百萬(wàn)token,是GPT-4o(5美元/百萬(wàn)token)的3倍;輸出定價(jià)60美元/百萬(wàn)token,是GPT-4o(15美元/百萬(wàn)token)的4倍。 不過(guò),開(kāi)發(fā)者可以選擇小版本的o1-mini。相較o1-preview,它速度更快、成本更低,適用于需要推理但沒(méi)有廣泛知識(shí)的應(yīng)用程序,尤其擅長(zhǎng)數(shù)據(jù)和編碼,成本比o1-preview低80%,即和GPT-4o價(jià)格相當(dāng)。 對(duì)于OpenAI此次發(fā)布的新模型,復(fù)旦大學(xué)計(jì)算機(jī)科學(xué)技術(shù)學(xué)院教授、MOSS大模型核心人員張奇對(duì)搜狐科技表示,它依然不具備真正的推理能力。 “統(tǒng)計(jì)機(jī)器學(xué)習(xí)進(jìn)行可以擬合數(shù)據(jù)集,但是無(wú)法進(jìn)行類人的演繹和歸納推理,它學(xué)習(xí)到的仍然是概率相關(guān)性。”張奇表示。 他提到,換一些簡(jiǎn)單題目,與訓(xùn)練語(yǔ)料不同的數(shù)據(jù),o1-preview的結(jié)果就會(huì)變的很差。比如雖然它數(shù)學(xué)能力突出,但對(duì)9.11和9.8哪個(gè)大這種問(wèn)題,第一次回答時(shí)仍然翻車,而在進(jìn)行第二次反饋后,它才從不同角度解讀,最后給出了正確答案。
這意味著,評(píng)測(cè)代表的是評(píng)測(cè)數(shù)據(jù)集的能力,但用到具體的實(shí)際場(chǎng)景,OpenAI新模型的首次輸出準(zhǔn)確性仍有很大的改進(jìn)空間。實(shí)際上,Open發(fā)布的前述評(píng)測(cè)中,部分表現(xiàn)突出的結(jié)果都是多次測(cè)試綜合得出。 OpenAI稱,o1模型還處于早期,未來(lái)將進(jìn)行定期更新和改進(jìn),后續(xù)會(huì)加入更多功能,如網(wǎng)頁(yè)瀏覽、文件和圖像上傳等。同時(shí),會(huì)繼續(xù)開(kāi)發(fā)GPT系列模型,與o1系列模型并行發(fā)展。 這意味著,我們還是有機(jī)會(huì)見(jiàn)到GPT-5,你還期待嗎?注:文章及圖片轉(zhuǎn)載自網(wǎng)絡(luò),如有侵權(quán)請(qǐng)聯(lián)系刪除 |