亚洲性爱视频直播,啊哈嗯啊哈的在线视频

游戲《外交》中，人工智能Cicero具有對他人的信仰、目標和意圖進行推理的能力，可以通過表現(xiàn)出同理心、使用人類語言交流并建立人際關(guān)系獲勝。

Meta的人工智能（AI）團隊11月22日宣布開發(fā)出Cicero，第一款在戰(zhàn)略棋盤游戲《外交》中打出人類級別表現(xiàn)的人工智能，這款游戲需要深厚的人際談判技巧。

早在1997年深藍在國際象棋比賽中擊敗加里·卡斯帕羅夫之前，棋盤游戲就已經(jīng)成為衡量人工智能成就的一個有用指標。2015年，AlphaGo擊敗圍棋大師李·塞多爾，將此類AI帶到一個新的高度。象棋和圍棋都遵循一套相對清晰的比賽規(guī)則，但這些單純的對抗性環(huán)境不需要AI與一同參與的玩家有語言交流。Cicero則可以在特定環(huán)境下，通過對話說服玩家、建立關(guān)系，從而獲取勝利。

游戲《外交》的畫面。

Cicero可能比人更會聊天

人工智能領(lǐng)域的一個主要長期目標是建立能夠用自然語言與人類進行規(guī)劃、協(xié)調(diào)和談判的智能體。盡管目前模仿人類語言的模型取得了很大進展，但有效的AI談判必須超越這一點，需要了解伙伴的信念、目標和意圖，規(guī)劃符合多人參與的聯(lián)合行動，并有力地傳達這些建議。

《外交》可能是最適合AI進行語言學習的培養(yǎng)皿之一，這款游戲很大一部分玩法涉及社交技能，玩家在游戲中扮演不同國家進行合作對抗，類似簡化版的《文明》、《三國志》或《歐陸風云》。這是一個涉及合作和競爭的戰(zhàn)略游戲，強調(diào)七個玩家之間的自然語言談判和戰(zhàn)術(shù)協(xié)調(diào)。AI必須表現(xiàn)出同理心，使用人類的語言交流，建立人際關(guān)系才能獲勝，這對AI玩家來說是一項艱巨的任務(wù)。

考慮到這一點，Meta提出：“我們是否可以建立更有效、更靈活的AI，他們是否可以使用語言進行談判、說服和與人合作，以實現(xiàn)與人類類似的戰(zhàn)略目標？”

根據(jù)Meta的說法，答案是肯定的。Cicero通過《外交》學習了自己的技能，隨著時間的推移成為游戲高手。Cicero將語言模型的規(guī)劃和強化學習算法相結(jié)合，可以通過對話推斷玩家的信念和意圖，并根據(jù)其計劃生成對話。

在《外交》游戲的40場匿名在線比賽中，Cicero的平均得分是人類選手的兩倍多，在72小時的比賽中，它發(fā)送了5277條信息，在不止一場比賽中排名前10%。

AI也要學習“黑暗森林”法則

此前，AI的成功主要體現(xiàn)在純粹的對抗性環(huán)境中，如國際象棋、圍棋和撲克。在這些環(huán)境中，與對手交流沒有價值，AI可以不斷和自己進行游戲來學習，即通過具有足夠計算和模型能力的自我游戲能力來解決問題。

但《外交》并不一樣，在這款模擬各個國家進行合作對抗的游戲中，每個玩家都處于《三體》作者劉慈欣所說的“黑暗森林”法則中，玩家彼此之間并不信任。任何只考慮一時利益而不考慮人際關(guān)系的行為都將招致懷疑。哪怕是在沒有語言交流的版本中，如果AI自我學習到與潛在人類盟友的規(guī)范和期望不符的策略，也同樣發(fā)揮不佳。

游戲中的信息通常涉及協(xié)調(diào)精確的計劃，任何溝通失誤都可能導致失敗。AI發(fā)送的每一條消息都必須基于上下文的對話歷史、游戲狀態(tài)和目標來規(guī)劃。如果信息不準確，人類可能會要求AI解釋其錯誤，這是一項更具有挑戰(zhàn)性的任務(wù)，可能會導致進一步的錯誤。此外，重復的消息傳遞會產(chǎn)生反饋循環(huán)，例如，語言模型模仿其自身先前消息的風格，發(fā)送簡短或不連貫的消息，這將增加未來此類消息在游戲中出現(xiàn)的可能性。

《外交》中的每一輪行動都是在談判之后同時發(fā)生的。要想成功，AI必須考慮到玩家可能不信守諾言的風險，或者其他玩家可能懷疑自己信用的風險。因此，對他人的信仰、目標和意圖進行推理的能力，以及通過對話說服和建立關(guān)系的能力是《外交》中必須掌握的技能。

“可控對話模式”是Cicero的核心

對此，為了培養(yǎng)Cicero，Meta將用于戰(zhàn)略推理（類似于AlphaGo）和自然語言處理（類似于GPT-3）的人工智能模型整合在一起，放入一個AI代理中。在每場比賽中，Cicero都會查看游戲板的狀態(tài)和對話歷史，并預測其他玩家的行為。它可以計劃玩家如何協(xié)調(diào)以實現(xiàn)他們的共同利益，并將這些計劃轉(zhuǎn)化為自然語言信息，也就是人類可以理解的語言。

Meta將Cicero的自然語言技能稱為“可控對話模式”，這是Cicero的核心所在。Cicero從網(wǎng)絡(luò)上抓取大量互聯(lián)網(wǎng)文本，并從中提取可用信息構(gòu)建對話。為了建立一個可控的對話模型，研究人員從一個有27億參數(shù)的語言模型開始培養(yǎng)AI，該模型在互聯(lián)網(wǎng)文本上進行了預訓練，并針對40000多人進行了微調(diào)。

由此產(chǎn)生的模型掌握了游戲的復雜玩法，且很難被人類識別出來。Meta說：“例如，Cicero可以推斷，在游戲后期，它需要取得某個特定玩家的支持，然后制定策略以贏得該玩家的青睞，它甚至可以從其他玩家的視角出發(fā)，看到風險和機會。”

但Cicero目前仍只能協(xié)調(diào)玩家在當前回合的行動。它沒有能力模擬對話在游戲的長期過程中如何影響與其他玩家的關(guān)系。換言之，AI可以通過預測整局比賽走勢制定發(fā)言計劃，但卻很難預測發(fā)言后對游戲內(nèi)人際關(guān)系的長期影響。盡管研究人員用一套過濾器篩選出某些錯誤信息來維持文本的正確率，但AI還是會偶爾犯錯?？紤]到這一點，下一步Meta可能會為Cicero部署更具戰(zhàn)略性的對話能力。不過，這些錯誤并未讓其他玩家懷疑自己的對手或友軍是人工智能。

Cicero在游戲中與人類對話。

至于更廣泛的應用，Meta表示，Cicero研究可以“緩解人類與AI之間的溝通障礙”，例如保持長期對話以教授某人新技能。它還可以為電子游戲提供動力，讓NPC（非玩家角色）可以像人類一樣說話，了解玩家的動機并在游戲過程中進行調(diào)整。

但此項技術(shù)也被視作雙刃劍。它可以用來操縱人類，通過模仿人類并根據(jù)上下文發(fā)言，以危險的方式欺騙人類。對此，Meta希望研究人員能夠“以負責任的方式”構(gòu)建代碼，并表示已采取步驟檢測和刪除“這個新領(lǐng)域中的有害信息”，這可能是指Cicero從攝入的互聯(lián)網(wǎng)文本中學習到的對話，這對于大型語言模型來說是一個風險。

目前Meta的Cicero研究發(fā)表在《自然》雜志上，標題為“通過將語言模型與戰(zhàn)略推理相結(jié)合，在《外交》游戲中進行人類水平的游戲”。

注：文章及圖片轉(zhuǎn)載自網(wǎng)絡(luò)，如有侵權(quán)請聯(lián)系刪除

分享到：微信 QQ好友新浪微博 QQ空間騰訊微博人人網(wǎng)

青青草日本一区啊|性爱黄色视频不卡|久碰碰视频精品分|.comAv一区|欧美三级片网国产对白刺激|超碰成人人人人妻|国产蜜芽在线观看一区|日韩成人久久社区|欧洲一区二区不卡|亚洲一级在线观看

Meta開發(fā)出懂談判的人工智能，可“忽悠”人類玩