青青草日本一区啊|性爱黄色视频不卡|久碰碰视频精品分|.comAv一区|欧美三级片网国产对白刺激|超碰成人人人人妻|国产蜜芽在线观看一区|日韩成人久久社区|欧洲一区二区不卡|亚洲一级在线观看

Meta開發(fā)出懂談判的人工智能,可“忽悠”人類玩

2022-11-24 10:10| 發(fā)布者: | 查看: |

游戲《外交》中,人工智能Cicero具有對他人的信仰、目標(biāo)和意圖進(jìn)行推理的能力,可以通過表現(xiàn)出同理心、使用人類語言交流并建立人際關(guān)系獲勝。

Meta的人工智能(AI)團(tuán)隊(duì)11月22日宣布開發(fā)出Cicero,第一款在戰(zhàn)略棋盤游戲《外交》中打出人類級別表現(xiàn)的人工智能,這款游戲需要深厚的人際談判技巧。

早在1997年深藍(lán)在國際象棋比賽中擊敗加里·卡斯帕羅夫之前,棋盤游戲就已經(jīng)成為衡量人工智能成就的一個有用指標(biāo)。2015年,AlphaGo擊敗圍棋大師李·塞多爾,將此類AI帶到一個新的高度。象棋和圍棋都遵循一套相對清晰的比賽規(guī)則,但這些單純的對抗性環(huán)境不需要AI與一同參與的玩家有語言交流。Cicero則可以在特定環(huán)境下,通過對話說服玩家、建立關(guān)系,從而獲取勝利。

游戲《外交》的畫面。

Cicero可能比人更會聊天

人工智能領(lǐng)域的一個主要長期目標(biāo)是建立能夠用自然語言與人類進(jìn)行規(guī)劃、協(xié)調(diào)和談判的智能體。盡管目前模仿人類語言的模型取得了很大進(jìn)展,但有效的AI談判必須超越這一點(diǎn),需要了解伙伴的信念、目標(biāo)和意圖,規(guī)劃符合多人參與的聯(lián)合行動,并有力地傳達(dá)這些建議。

《外交》可能是最適合AI進(jìn)行語言學(xué)習(xí)的培養(yǎng)皿之一,這款游戲很大一部分玩法涉及社交技能,玩家在游戲中扮演不同國家進(jìn)行合作對抗,類似簡化版的《文明》、《三國志》或《歐陸風(fēng)云》。這是一個涉及合作和競爭的戰(zhàn)略游戲,強(qiáng)調(diào)七個玩家之間的自然語言談判和戰(zhàn)術(shù)協(xié)調(diào)。AI必須表現(xiàn)出同理心,使用人類的語言交流,建立人際關(guān)系才能獲勝,這對AI玩家來說是一項(xiàng)艱巨的任務(wù)。

考慮到這一點(diǎn),Meta提出:“我們是否可以建立更有效、更靈活的AI,他們是否可以使用語言進(jìn)行談判、說服和與人合作,以實(shí)現(xiàn)與人類類似的戰(zhàn)略目標(biāo)?”

根據(jù)Meta的說法,答案是肯定的。Cicero通過《外交》學(xué)習(xí)了自己的技能,隨著時間的推移成為游戲高手。Cicero將語言模型的規(guī)劃和強(qiáng)化學(xué)習(xí)算法相結(jié)合,可以通過對話推斷玩家的信念和意圖,并根據(jù)其計(jì)劃生成對話。

在《外交》游戲的40場匿名在線比賽中,Cicero的平均得分是人類選手的兩倍多,在72小時的比賽中,它發(fā)送了5277條信息,在不止一場比賽中排名前10%。

AI也要學(xué)習(xí)“黑暗森林”法則

此前,AI的成功主要體現(xiàn)在純粹的對抗性環(huán)境中,如國際象棋、圍棋和撲克。在這些環(huán)境中,與對手交流沒有價值,AI可以不斷和自己進(jìn)行游戲來學(xué)習(xí),即通過具有足夠計(jì)算和模型能力的自我游戲能力來解決問題。

但《外交》并不一樣,在這款模擬各個國家進(jìn)行合作對抗的游戲中,每個玩家都處于《三體》作者劉慈欣所說的“黑暗森林”法則中,玩家彼此之間并不信任。任何只考慮一時利益而不考慮人際關(guān)系的行為都將招致懷疑。哪怕是在沒有語言交流的版本中,如果AI自我學(xué)習(xí)到與潛在人類盟友的規(guī)范和期望不符的策略,也同樣發(fā)揮不佳。

游戲中的信息通常涉及協(xié)調(diào)精確的計(jì)劃,任何溝通失誤都可能導(dǎo)致失敗。AI發(fā)送的每一條消息都必須基于上下文的對話歷史、游戲狀態(tài)和目標(biāo)來規(guī)劃。如果信息不準(zhǔn)確,人類可能會要求AI解釋其錯誤,這是一項(xiàng)更具有挑戰(zhàn)性的任務(wù),可能會導(dǎo)致進(jìn)一步的錯誤。此外,重復(fù)的消息傳遞會產(chǎn)生反饋循環(huán),例如,語言模型模仿其自身先前消息的風(fēng)格,發(fā)送簡短或不連貫的消息,這將增加未來此類消息在游戲中出現(xiàn)的可能性。

《外交》中的每一輪行動都是在談判之后同時發(fā)生的。要想成功,AI必須考慮到玩家可能不信守諾言的風(fēng)險,或者其他玩家可能懷疑自己信用的風(fēng)險。因此,對他人的信仰、目標(biāo)和意圖進(jìn)行推理的能力,以及通過對話說服和建立關(guān)系的能力是《外交》中必須掌握的技能。

“可控對話模式”是Cicero的核心

對此,為了培養(yǎng)Cicero,Meta將用于戰(zhàn)略推理(類似于AlphaGo)和自然語言處理(類似于GPT-3)的人工智能模型整合在一起,放入一個AI代理中。在每場比賽中,Cicero都會查看游戲板的狀態(tài)和對話歷史,并預(yù)測其他玩家的行為。它可以計(jì)劃玩家如何協(xié)調(diào)以實(shí)現(xiàn)他們的共同利益,并將這些計(jì)劃轉(zhuǎn)化為自然語言信息,也就是人類可以理解的語言。

Meta將Cicero的自然語言技能稱為“可控對話模式”,這是Cicero的核心所在。Cicero從網(wǎng)絡(luò)上抓取大量互聯(lián)網(wǎng)文本,并從中提取可用信息構(gòu)建對話。為了建立一個可控的對話模型,研究人員從一個有27億參數(shù)的語言模型開始培養(yǎng)AI,該模型在互聯(lián)網(wǎng)文本上進(jìn)行了預(yù)訓(xùn)練,并針對40000多人進(jìn)行了微調(diào)。

由此產(chǎn)生的模型掌握了游戲的復(fù)雜玩法,且很難被人類識別出來。Meta說:“例如,Cicero可以推斷,在游戲后期,它需要取得某個特定玩家的支持,然后制定策略以贏得該玩家的青睞,它甚至可以從其他玩家的視角出發(fā),看到風(fēng)險和機(jī)會。”

但Cicero目前仍只能協(xié)調(diào)玩家在當(dāng)前回合的行動。它沒有能力模擬對話在游戲的長期過程中如何影響與其他玩家的關(guān)系。換言之,AI可以通過預(yù)測整局比賽走勢制定發(fā)言計(jì)劃,但卻很難預(yù)測發(fā)言后對游戲內(nèi)人際關(guān)系的長期影響。盡管研究人員用一套過濾器篩選出某些錯誤信息來維持文本的正確率,但AI還是會偶爾犯錯??紤]到這一點(diǎn),下一步Meta可能會為Cicero部署更具戰(zhàn)略性的對話能力。不過,這些錯誤并未讓其他玩家懷疑自己的對手或友軍是人工智能。

Cicero在游戲中與人類對話。

至于更廣泛的應(yīng)用,Meta表示,Cicero研究可以“緩解人類與AI之間的溝通障礙”,例如保持長期對話以教授某人新技能。它還可以為電子游戲提供動力,讓NPC(非玩家角色)可以像人類一樣說話,了解玩家的動機(jī)并在游戲過程中進(jìn)行調(diào)整。

但此項(xiàng)技術(shù)也被視作雙刃劍。它可以用來操縱人類,通過模仿人類并根據(jù)上下文發(fā)言,以危險的方式欺騙人類。對此,Meta希望研究人員能夠“以負(fù)責(zé)任的方式”構(gòu)建代碼,并表示已采取步驟檢測和刪除“這個新領(lǐng)域中的有害信息”,這可能是指Cicero從攝入的互聯(lián)網(wǎng)文本中學(xué)習(xí)到的對話,這對于大型語言模型來說是一個風(fēng)險。

目前Meta的Cicero研究發(fā)表在《自然》雜志上,標(biāo)題為“通過將語言模型與戰(zhàn)略推理相結(jié)合,在《外交》游戲中進(jìn)行人類水平的游戲”。


注:文章及圖片轉(zhuǎn)載自網(wǎng)絡(luò),如有侵權(quán)請聯(lián)系刪除

<
>
?
QQ在線咨詢
售前咨詢熱線
0312-2397237
售后服務(wù)熱線
85917613
返回頂部