亚洲AV秘无码潮喷,亚州国产污在人线播放午夜,91人妻人人澡人人

在進(jìn)行高達(dá)1500億美元的估值融資之際，OpenAI放出了一個(gè)大招，預(yù)熱了許久的“草莓”（Strawberry）模型終于來了。

“需要耐心等待的時(shí)刻結(jié)束了。”該公司CEO山姆·奧特曼（Sam Altman）說。這就是名為 o1的新模型，這次發(fā)布包括預(yù)覽版o1-preview和小尺寸版o1-mini。

OpenAI官方發(fā)文稱，新模型旨在解決復(fù)雜推理問題，訓(xùn)練模型在響應(yīng)之前花更多時(shí)間思考，類似于人類的思考方式。

“新模型在推理能力上代表了AI能力的新水平。”OpenAI稱，該模型可以解決科學(xué)、編程和數(shù)學(xué)等更為復(fù)雜的任務(wù)，且比此前的GPT-4o有顯著提升。

奧特曼發(fā)帖表示，“這是我們迄今為止功能最強(qiáng)大、最一致的模型，也是迄今為止我們最好的推理模型，這是新范式的開始。”

推理能力吊打GPT-4o，數(shù)學(xué)編程能力“爆表”

新模型到底有多強(qiáng)？它在需要深入思考和邏輯推理的專業(yè)任務(wù)上不僅吊打GPT-4o，還超過了擁有博士學(xué)位的人類專家。

OpenAI表示，新模型在物理、化學(xué)和生物等學(xué)科的挑戰(zhàn)性基準(zhǔn)測試中，表現(xiàn)超過人類專家。在國際數(shù)學(xué)奧林匹克（IMO）資格考試中，新模型得分超83%，遠(yuǎn)高于GPT-4o的13%。在Codeforces編程競賽中，o1模型的成績達(dá)到了前89%，而GPT-4o僅達(dá)到11%。

OpenAI表示， o1模型在推理能力上相比GPT-4o顯著進(jìn)步。綜合評測顯示，在絕大多數(shù)需要深入思考和復(fù)雜推理的任務(wù)中，新模型都展現(xiàn)出了明顯優(yōu)于GPT-4o的表現(xiàn)，并在多個(gè)細(xì)分測試上超過90%。

在啟用視覺感知能力的情況下，o1模型在MMMU（多模態(tài)理解）測試中獲得了78.2%的高分，成為首個(gè)能與人類專家展開競爭的AI模型。

在 MMLU（大規(guī)模多任務(wù)語言理解）測試中，在總計(jì)57個(gè)子類別中，o1在54個(gè)類別上都超越了GPT-4o 的表現(xiàn)。

上述評測還顯示，o1模型在MMLU Categories中的高數(shù)測試正確率高達(dá)98%，且在ML Benchmarks中的數(shù)學(xué)測試相較GPT-4o獲得了超過34%的最大絕對性優(yōu)勢，足以顯示o1模型是個(gè)數(shù)學(xué)超級“學(xué)霸”。

OpenAI還選擇了專為美國最優(yōu)秀的高中數(shù)學(xué)生而設(shè)計(jì)的高難度考試——美國數(shù)學(xué)邀請賽（AIME）作為基準(zhǔn)，來測試模型的極限能力。

結(jié)果顯示，在2024年AIME考試中（15題），GPT-4o平均只解決了12%（答對 1.8 ）的問題，o1模型測試單次正確率高達(dá)74%，64次采樣的正確率提升至 83%，1000次采樣后使用學(xué)習(xí)型評分函數(shù)重新排序后的正確率高達(dá)93%，即能答對13.9 題，躋身美國前500名學(xué)生之列，也超出美國數(shù)學(xué)奧林匹克競賽的分?jǐn)?shù)線。

OpenAI進(jìn)一步將o1模型應(yīng)用于GPQA diamond 測試，其專門用于評估模型在化學(xué)、物理和生物學(xué)等領(lǐng)域的專業(yè)知識水平，并邀請了擁有相關(guān)領(lǐng)域博士學(xué)位的專家參與測試。

測試結(jié)果顯示，o1不僅成功完成了測試，更是超越了博士表現(xiàn)，成為首個(gè)在GPQA diamond 基準(zhǔn)上擊敗人類專家的AI模型。

“這些結(jié)果并不意味著它在所有方面都比擁有博士學(xué)位的專家更強(qiáng)，只是說o1更擅長解決一些博士能夠解決的特定問題。”OpenAI稱。

在編程方面，OpenAI基于o1模型深度優(yōu)化和專項(xiàng)訓(xùn)練出一個(gè)新的AI模型，其在2024年國際信息學(xué)奧林匹克競賽（IOI）獲得了213分的高分，躋身參賽者的前50%。

在Codeforces平臺的模擬競爭性編程比賽中，該新模型超越了93%的人類競爭者。相比之下，GPT-4o僅超過11%的人類競爭者。

這些評測顯示出，新模型不僅在數(shù)學(xué)、編程等需要高推理能力的專業(yè)領(lǐng)域可比肩人類專家，同時(shí)在更為廣泛的多模態(tài)和語言理解方面也有更好表現(xiàn)。

OpenAI發(fā)布的一項(xiàng)匿名人類偏好評估顯示，o1-preview在數(shù)據(jù)分析、編碼和數(shù)學(xué)等推理密集型類別中，比GPT-4o更受歡迎，但在某些自然語言任務(wù)中，o1-preview并不是首選。這表明它并不適合所有用例，GPT-4o在文本生成方面仍保持優(yōu)勢。

OpenAI負(fù)責(zé)新模型研發(fā)的員工也提到，o1模型并不總是比GPT-4o更好，許多任務(wù)并不需要推理能力，有時(shí)等待o1的回應(yīng)相比快速獲得GPT-4o的回應(yīng)并不值得。

“作為早期模型，o1-preview還不具備ChatGPT的許多實(shí)用功能，如瀏覽網(wǎng)頁、上傳文件和圖片。對于許多常見情況，GPT-4o短期內(nèi)變得更加強(qiáng)大。但對于復(fù)雜的推理任務(wù)來說，這是一個(gè)重大進(jìn)步，代表了人工智能能力的新水平。”OpenAI表示。

強(qiáng)化學(xué)習(xí)+思維鏈加持，幻覺依然無法徹底解決

o1模型更強(qiáng)的推理能力得益于OpenAI開發(fā)了一種創(chuàng)新的大規(guī)模強(qiáng)化學(xué)習(xí)算法。這種算法不僅能高效利用數(shù)據(jù)，還能有效訓(xùn)練模型運(yùn)用思維鏈進(jìn)行推理思考。

這種訓(xùn)練的核心在于教會(huì)模型“如何思考”。因此，與傳統(tǒng)模型追求的快速響應(yīng)不同，新模型開始學(xué)會(huì)慢思考——在回答之前，內(nèi)部進(jìn)行長鏈條的思考和推理，確保生成內(nèi)容的質(zhì)量。在OpenAI的一項(xiàng)單詞推理測試中，o1-preview響應(yīng)時(shí)間達(dá)32秒，而GPT-4o僅需3秒。

“我們訓(xùn)練這些模型花更多的時(shí)間去思考問題，然后再做出反應(yīng)，就像人類一樣。”OpenAI稱，借助強(qiáng)化學(xué)習(xí)和思維鏈，新模型能完善自己的思維過程，具備自我檢查的能力，識別糾正出現(xiàn)的錯(cuò)誤，可以將復(fù)雜問題進(jìn)行分解，并能在發(fā)現(xiàn)當(dāng)前方法無效時(shí)嘗試不同的策略。

OpenAI還發(fā)現(xiàn)，隨著強(qiáng)化學(xué)習(xí)計(jì)算量的增加，以及模型思考時(shí)間的延長，o1的性能會(huì)不斷提高。這顯示新模型更多依賴計(jì)算資源和算法優(yōu)化，而傳統(tǒng)大語言模型預(yù)訓(xùn)練則依賴于海量數(shù)據(jù)的收集處理。

“這有很大不同，我們正深入研究這種新方法的擴(kuò)展限制。”OpenAI表示，模型思考的時(shí)間越長，在推理任務(wù)上的表現(xiàn)就越好。“這開辟了一個(gè)新的擴(kuò)展維度，不再受預(yù)訓(xùn)練的瓶頸限制，現(xiàn)在也可以擴(kuò)展推理計(jì)算能力。”

得益于這些技術(shù)創(chuàng)新所帶來的能力，OpenAI將新模型計(jì)數(shù)器重置為 1，并命名為o1。

某種程度來說，這意味著大模型的“摩爾定律”Scaling Law有效，但重點(diǎn)已從堆數(shù)據(jù)，轉(zhuǎn)移到堆算力和算法優(yōu)化方面，提高模型思考時(shí)間，可以說是一條提升大模型能力的新路徑。

英偉達(dá)的科學(xué)家Jim Fan對此也點(diǎn)評稱，模型不僅僅擁有訓(xùn)練時(shí)的Scaling law，還擁有推理層面的Scaling law，雙曲線的共同增長，將突破大模型能力的提升瓶頸。

同時(shí)，OpenAI表示，思維鏈推理為AI對齊和安全提供了新的機(jī)會(huì)。“這是教授模型人類價(jià)值觀和原則的有效方法，推理能力的提升有利于模型穩(wěn)健性，并使我們能夠以清晰的方式觀察模型思維的過程。”

不過，這仍然無法徹底解決幻覺問題，但思維鏈為AI的三大缺陷（不可信、不可控、不透明）提供了思路。它可以“讀取模型的思想”并理解其思維過程，檢測AI是否試圖操縱用戶，以及為 AI決策提供解釋性，增加透明度和可信度。

OpenAI總裁Greg Brockman也提到，這提供了新的安全機(jī)會(huì)，公司正在積極探索，包括可靠性、幻覺和對抗攻擊者的魯棒性。

“在權(quán)衡了用戶體驗(yàn)、競爭優(yōu)勢、思維鏈監(jiān)控和安全等在內(nèi)的多種因素后，我們決定不向用戶展示原始思維鏈。”OpenAI表示，o1模型會(huì)提供由模型生成的思維鏈摘要。

預(yù)覽版成本比GPT-4o貴三四倍，9.11和9.8誰大仍翻車

“發(fā)布o(jì)1-preview的一個(gè)動(dòng)機(jī)是為了觀察哪些使用場景會(huì)變得流行，以及這些模型在哪些方面還需要改進(jìn)。”OpenAI員工稱。

該公司表示，新模型將為多個(gè)領(lǐng)域的專業(yè)人士帶來顯著助益，尤其是那些在科學(xué)研究、軟件開發(fā)、數(shù)學(xué)計(jì)算等領(lǐng)域面臨復(fù)雜挑戰(zhàn)的領(lǐng)域，將是一個(gè)輔助工具。

ChatGPT Plus和Team用戶從今天開始可以在ChatGPT 中訪問 o1 模型。ChatGPT Enterprise 和Edu用戶將從下周開始獲得訪問權(quán)限。

部分開發(fā)者今日起也可使用o1-preview和o1-mini，速率限制為20 RPM。OpenAI計(jì)劃在未來向所有ChatGPT的免費(fèi)用戶開放o1-mini的使用權(quán)。

對開發(fā)者來說，使用o1模型要付出更高的價(jià)格。目前，o1-preview輸入定價(jià)15美元/百萬token，是GPT-4o（5美元/百萬token）的3倍；輸出定價(jià)60美元/百萬token，是GPT-4o（15美元/百萬token）的4倍。

不過，開發(fā)者可以選擇小版本的o1-mini。相較o1-preview，它速度更快、成本更低，適用于需要推理但沒有廣泛知識的應(yīng)用程序，尤其擅長數(shù)據(jù)和編碼，成本比o1-preview低80%，即和GPT-4o價(jià)格相當(dāng)。

對于OpenAI此次發(fā)布的新模型，復(fù)旦大學(xué)計(jì)算機(jī)科學(xué)技術(shù)學(xué)院教授、MOSS大模型核心人員張奇對搜狐科技表示，它依然不具備真正的推理能力。

“統(tǒng)計(jì)機(jī)器學(xué)習(xí)進(jìn)行可以擬合數(shù)據(jù)集，但是無法進(jìn)行類人的演繹和歸納推理，它學(xué)習(xí)到的仍然是概率相關(guān)性。”張奇表示。

他提到，換一些簡單題目，與訓(xùn)練語料不同的數(shù)據(jù)，o1-preview的結(jié)果就會(huì)變的很差。比如雖然它數(shù)學(xué)能力突出，但對9.11和9.8哪個(gè)大這種問題，第一次回答時(shí)仍然翻車，而在進(jìn)行第二次反饋后，它才從不同角度解讀，最后給出了正確答案。

這意味著，評測代表的是評測數(shù)據(jù)集的能力，但用到具體的實(shí)際場景，OpenAI新模型的首次輸出準(zhǔn)確性仍有很大的改進(jìn)空間。實(shí)際上，Open發(fā)布的前述評測中，部分表現(xiàn)突出的結(jié)果都是多次測試綜合得出。

OpenAI稱，o1模型還處于早期，未來將進(jìn)行定期更新和改進(jìn)，后續(xù)會(huì)加入更多功能，如網(wǎng)頁瀏覽、文件和圖像上傳等。同時(shí)，會(huì)繼續(xù)開發(fā)GPT系列模型，與o1系列模型并行發(fā)展。

這意味著，我們還是有機(jī)會(huì)見到GPT-5，你還期待嗎？

注：文章及圖片轉(zhuǎn)載自網(wǎng)絡(luò)，如有侵權(quán)請聯(lián)系刪除

分享到：微信 QQ好友新浪微博 QQ空間騰訊微博人人網(wǎng)

青青草日本一区啊|性爱黄色视频不卡|久碰碰视频精品分|.comAv一区|欧美三级片网国产对白刺激|超碰成人人人人妻|国产蜜芽在线观看一区|日韩成人久久社区|欧洲一区二区不卡|亚洲一级在线观看

OpenAI o1模型到博士水平了?復(fù)旦教授:沒有真正推理