问答文章1 问答文章501 问答文章1001 问答文章1501 问答文章2001 问答文章2501 问答文章3001 问答文章3501 问答文章4001 问答文章4501 问答文章5001 问答文章5501 问答文章6001 问答文章6501 问答文章7001 问答文章7501 问答文章8001 问答文章8501 问答文章9001 问答文章9501

人类什么时候可以发展成游戏雷霆战机中的科技?

发布网友 发布时间:2022-04-23 12:15

我来回答

2个回答

热心网友 时间:2023-05-04 21:26

作者 | 青暮、眉钉
诸如《星际争霸》等复杂游戏,是AI模拟现实的绝佳场景。
如果AI在复杂的环境中,学会和人一样实时感知、分析、理解、推理、决策并行动,那么就可能在多变、复杂的现实环境中发挥更大的作用。
近年来,从国际象棋、德州扑克到《星际争霸》,基于强化学习(reinforcement learning )算法的AI智能体早已达到人类顶级玩家水平。如DeepMind出品的AlphaStar早已在国际排位赛中达到宗师水平,完败99.8%的人类。
但在这些游戏中,AI与人类都表现为”对抗关系”
如果让AI与人类“配合”打游戏,强化学习智能体能成为一个“好队友”吗?
最近,麻省理工林肯实验室研究团队在arXiv提交了一篇新论文《Evaluation of Human-AI Teams for Learned and Rule-Based Agents in Hanabi》,论文表明,尽管强化学习智能体在Go、星际争霸等竞争性游戏表现相当优异,但它们与人类合作玩游戏时,在简单的纸牌游戏中表现都很“糟糕”。
论文地址:https://arxiv.org/pdf/2107.07630.pdf
在这项研究中,研究团队评估了基于规则和基于学习的两类AI智能体,在纸牌游戏(Hanabi)中与人类合作的表现,通过游戏分数、团队绩效、可解释性、信任度和总体偏好等指标测量,他们发现,在几乎所有主观指标中,人类对基于规则的智能体队友的“好感”明显高于基于学习的智能体,而且对后者大多持负面评价。
作者表示,虽然强化学习智能体在对抗性游戏中创造了超人AI,但人类不该理所当然地认为RL系统在所有应用中都能表现优越,在目前的技术水平下,基于学习的智能体要想成为人机互动的最佳“队友”并不那么容易。
同时,论文中也强调虽然最终游戏得分几乎没有差别,但我们应该将主观评价纳入智能体的的考核标准,而不是单一地关注客观任务绩效。
1
RL智能在“人机合作”中有多菜?
强化学习(reinforcement learning)是训练AI智能体最常用的算法,它为智能体在游戏场景中提供了更灵活的动作,接收环境信息的反馈机制以及作战目标,如今基于强化学习的智能体已经不再需要人类玩家的游戏数据,而是可以在自我游戏模式下从头开始训练。
在棋盘游戏、街机游戏、实时战略游戏、多人作战以及模拟空中格斗等游戏中,RL智能体的表现已经达到了人类玩家的水平,甚至碾压顶级职业玩家。一个典型的例子是在AlphaGo与顶级围棋选手李世石的对战赛中,智能体凭借一步精绝之棋,扭转局面首战人类!
然而,RL智能体在以上游戏中的优势都是在纯粹的对抗性、单人或双人游戏中进行的。 要想将智能体的AI能力扩展到现实世界,还必须能够展示团队智能,特别是与人类队友合作的团队智能 。
论文作者Ross Allen表示,现实世界中的复杂性、不确定性、数据稀缺性以及决策周期和目标定位都是智能体面临的难题。尽管如此,智能体依然需要与人类协作,解决现实世界中深度学习应用的技术壁垒。
需要强调的是, 不同于智能体之间的协作,要想与人类达成有效合作,AI队友需要表现出适当水平的人类反应,比如信任、精神负荷和风险感知等 。考虑本次研究目的是评估在不完全信息博弈中的人工智能团队的合作,不仅要考虑到人类AI团队的客观表现,而且考虑到不同类型的人工智能队友工作时的主观人类反应和偏好。
在诸多游戏中,研究人员最终挑选了纸牌游戏Hanabi(花火)用于实验。纸牌游戏规则简单,又需要在限信息内充分发挥合作优势。Allen表示,“在解决现实世界中的问题时,最好从简单的做法开始做起” 。近年来,很多研究团队基于Hanabi游戏开发智能体,其中部分智能体是基于符号AI,部分使用强化学习。
Hanabi需要两到五名玩家按照特定的顺序合作玩牌,玩家们向后举牌,相互不能面对面,但每个队员都可以看到彼此卡片。玩家可以使用有限数量的令牌来提供卡片线索,但只能利用从队友手中看到的信息和自己手上的有限线索来制定取胜策略。
作者采取了三种游戏模式:一是自我游戏,即智能体用自己的副本参与游戏 ;二是交叉游戏,智能体需要与其他类型的智能体合作 ;三是与人类合作玩游戏,也就是交叉游戏。Allen表示, 与人类的交叉游戏(也称为人类游戏)尤其重要,它衡量了人机合作,也是论文中实验的基础。
为了测试人类与人工智能合作的效率,作者选择了目前性能最佳的两款智能体SmartBot(SB)和Other-Play(OP),前者是在自我游戏中表现最佳且基于规则的人工智能系统,后者是在交叉游戏中排名最高的基于学习的人工智能系统。
在人类与AI队友的Hanabi游戏中,玩家可以同时接触到SmartBot和Other-Play,但不会知道是具体是哪种算法在运作。Allen表示结果令我们大吃一惊,“ 人类对基于学习的智能体合作评价非常负面,可以说他们讨厌与它合作 ”。
根据对人类参与者的调研, 与基于规则的SmartBot智能体相比,基于学习的Other-Play在体验感上更差一些。 在纸牌游戏中,向其他玩家提供"微妙暗示"的技巧是团队取胜的关键之一。比如,桌子上有一张“方块之一”牌,你的队友手里拿着两个方块。通过指着牌说“ 这是一个2 ”或“这是一个正方形”,你隐隐地暗示队友打出这张牌,但没有向他提供这张牌的完整信息,如果是有经验的玩家就会立即顿悟,但如果是向AI队友提供这样的信息,不会得到任何反馈。
2
基于“规则”的智能体表现更好
研究人员从客观和主观两方面评价了人工智能的合作水平。客观指标包括分数、错误率等;主观指标包括人类玩家的体验:对AI队友的信任度和适应度,以及AI理解动机和预测行为的能力。

实验的结果表明,尽管两个智能体的合作在客观绩效方面没有显著差异,但主观指标显示,与基于学习的代理相比,人类明显更喜欢基于规则的智能体。在论文中,作者对大多数图进行了着色,以显示与数据相关的参与者的自我评价和体验水平。
如下图显示了智能体类型(左)和自评玩家体验(右)的游戏分数,可以看出,当与任一智能体合作时,未发现显著差异,与自评体验的相关性仅在SmartBot游戏中显著。
由于分数是纸牌游戏的主要性能指标,也是RL智能体的奖励函数,因此作者研究了分数与其他一些相关性。结果显示自评经验和得分在汇集两位智能体的游戏时,呈现显著的正相关(p=0.0053,r=0.214)。SB智能体在游戏子集的相关性仍然显著(p=0.0023,r=0.247),但OP智能体的游戏相关性不显著(p=0.0867,r=0.1881),这表明对于该双变量分析来说,经验仅与SB的得分相关,而与OP无关。
此外,团队绩效(G3、G4)和得分(p=0.0003,r=0.275和p=0.0002,r=0.280)之间也发现了显著的正相关。但智能体的自我绩效(G1、G2)与得分没有显著相关性。
下图为人类玩家赛后对智能体表现的情绪测量,在所有智能体类型与纸牌游戏交互充分的情况下,经验更丰富的人类玩家对Other-Play智能体的评价要比SmartBot负面得多,而新手玩家对这两个智能体的评价相似,SmartBot代理的新手和专家评分之间没有显著差异。
在实验分析中,作者将参与者分为“新手”(n=10,自评经验≤ 5) 和“专家”(n=19,自评经验>5)两组,并在交互作用显著的情况下(G3、G5、G7、G8、G9),对每种参与者的感受指标进行比较。
实验显示,两组对某人的评价没有显著差异,但专家们对OP的评价总是比新手差。G3“团队表现良好”(t(85)=3.551,p<0.001,效应大小d=0.752)的评价差异没有其他组(t(85)=5.068到5.855,p<0.0001,| d |>1.0)的大,但所有组都很显著。
可以注意到,有三名参与者在OP中获得24分,其中一名参与者两次获得24分(没有参与者在OP中获得25分)。对于问题E1,三人的评价都在Likert量表的最末端回答,并倾向于选择SB。
有趣的是,他们对OP和SB的累积分数分别为:参与者6(先玩OP,自评经验为7):57和28;参与者19(SB优先,经验7):68和48;参与者20(OP优先,体验6):70和35。其中,累积分数最高的参与者的分数分别为68(OP)和54(SB),并且首选Likert评分为6的SB。
参与者评论指出,与OP合作时的低脑力负荷通常是由于对智能体感到沮丧并放弃与它合作而造成的。例如,在OP智能体未能根据人类发出的几条提示采取行动(“我给了它信息,它却把它扔掉了,不知道该如何与智能体合作”)。
此外,在下图的实验后的问题测量图中,除E8外,所有人对基于规则的智能机器人都表现出统计上的显著偏好(p<0.05)。
3
强化学习与现实世界的距离
这项研究测量了人类与智能体混合团队在纸牌游戏Hanabi中的游戏性能和反应,比较了人类与基于规则的智能体协作和与基于强化学习的智能体协作的结果。尽管在这些团队之间取得了相似的分数,但人类玩家强烈倾向于与基于规则的智能体合作,并且对另一个游戏代理持否定态度,理由是人类玩家对后者的理解、信任、适应度和感知能力体验较差。
智能体与人类合作的能力是决定它们是否能够在部署到现实世界的一个重要因素。这些结果表明,即使是最先进的RL智能体在很大程度上也无法让人类相信它们是”好队友”。
研究表明,智能体 在’自我游戏’和‘交叉游戏’中的任务表现,可能与人类的信任和偏好无关。 考虑到训练基于RL的智能体需要大量数据,作者认为,想要训练能够与人类搭档的RL智能体,需要找到可训练的 目标函数,即符合 “人类偏好”,或与人类偏好密切相关的目标。
论文中也强调,这项研究结果无法推演到其他环境、游戏或领域中, 实验不可避免地存在一些局限性,比如受试者数量较少(29名参与者),且倾向于精通纸牌游戏的人——他们对AI队友有预先设定的行为期望,更有可能因为RL智能体的古怪行为而产生负面体验。
但作者在论文中也表示, “如果最先进的 RL 智能体都不能在规则简单的纸牌游戏中成为优秀的协作者, 当相同的强化学习技术应用在更复杂、更微妙、后果导向性更强的现实世界又会如何? 毫无疑问, 如果要在真实世界中采用强化学习智能体,人类对AI的感知在未来AI设计和开发中需要得到更多的考虑。
原文链接:https://bdtechtalks.com/2021/11/01/reinforcement-learning-hanabi/

热心网友 时间:2023-05-04 21:27

90级。雷霆战机是由北京爱乐之旅开发,腾讯游戏于2014年3月12日发行的飞行射击游戏。游戏讲述了人类因“希望之晶”而*成两大阵营:星际联盟和地球联邦,随后爆发战争。玩家将在游戏中扮演地球联邦阵营的战斗机飞行员角色,保护希望水晶,为人类的希望而战。随着人类航天科技的飞速发展,希望晶体作为核心能源被越来越多的科学家开发利用。因为对水晶资源的争夺,人类社会开始逐渐分成两派。留在地球上的普通人成立了地球联邦,移居卫星的新人们成立了行星联盟。两大势力开始各自发展军备,争端由此开始。十二星座对面,一场水晶之战打响了,肆意的战争点燃了宁静的星海。
声明声明:本网页内容为用户发布,旨在传播知识,不代表本网认同其观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。E-MAIL:11247931@qq.com
临沂比较有名的男装品牌 呼伦贝尔市悦动网络科技有限公司怎么样? 呼伦贝尔中汇实业有限公司怎么样? 呼伦贝尔油玉不绝电子商务有限公司怎么样? 如何避免wps卡顿? 属鼠的男人找对象是属什么,属鼠的人和什么属相合 96年鼠的姻缘在哪年 属相相合年份运势提升 2024属鼠找对象属什么最佳 黑客攻击网站能报案吗 黑客攻击报案有用吗 - 信息提示 哪里可以下载《都市天际线》中文版? 想玩都市天际线需要怎么样的电脑配置呢? 《城市天际线》配置要求是什么? 都市天际线拼音怎么打 steam城市天际线改中文怎么订阅简体中文mod WIN10系统下玩城市天际线中文环境FPS太低 在steam 买的正版城市天际线怎么设置成中文 城市天际线中文语言故障 steam上的都市天际线DLC有中文吗? xbox one 城市天际线 有中文吗 天际线》steam中文设置方法详解 城市天际线中文怎么设置 游侠下载的城市天际线是英文的 而且照网上说的进入了调语言的界面 没有中文 只有英文和一些我不认识的 在steam 买的正版城市天际线怎么设置成中 城市天际线怎么把英文改成中文的?在哪改的?steam上面的。 什么是天马屏?为什么大家都不喜欢? 有谁有去除马赛克的软件吗? 微信小程序里面可以接入h5地址吗 如何使用HTML5开发一个微信小程序? 微信小程序能添加(嵌入)h5游戏吗? 云上城之歌90级了还有什么玩的吗 蔷薇少女第一季的主题曲叫什么? 劲爆战士第四部的名字就是水晶之战? 蔷薇少女第一季的主题曲 劲爆战士4水晶之战什么时候播出 赛尔号战队 劲爆战士第四部水晶之战什么时候才能在电视里看到啊总是看火力少年王都烦透了???? 两边是水晶可以买兵,谁的水晶没血了就输了,这是什么小游戏啊什么名字 求蔷薇少女的所有歌曲~~MP3格式的呐~ 星际争霸2单人战役:末日的呢喃中的任务奖励目标:摧毁三个虫巢,会奖励3点虫族研发点数后面两个虫巢在哪? 时空猎人2015.4.16更新 itouch2 4.2.1 IOS玩不了水果忍者以及其他几个游戏 镇妖塔的《聚仙》镇妖塔副本 劲爆战士第四部水晶之战会新加人物吗? 求一首歌。 天马屏是什么意思 微信点了没反应怎么回事? 微信点击没反应 如何在CDR里面精准绘制菱形? coreldraw 里,菱形怎么画???