半岛体育 分类>>

北大让机器人拥有多巴胺:一次示范就能从笨拙新手变操作高手

2026-01-21 06:37:09
浏览次数:
返回列表

  半岛,半岛体育,半岛体育app,半岛官网,半岛电竞,半岛真人,半岛棋牌,半岛体育官网注册,半岛体育官方app下载,半岛体育官方注册网址,半岛体育平台官网注册链接,半岛体育app下载,半岛体育怎么样,半岛体育官网,半岛体育登录入口,半岛体育官方网站,半岛最新入口,半岛下注,半岛投注

北大让机器人拥有多巴胺:一次示范就能从笨拙新手变操作高手

  想象一下你第一次学骑自行车的场景。起初你摇摇晃晃,需要大人在后面扶着,每当你保持平衡哪怕一秒钟,大人就会鼓励你做得好!这种及时的正面反馈帮助你快速掌握了平衡技巧。然而在机器人世界里,这种鼓励机制一直是个难题。传统的机器人学习要么只在任务完全成功时才给予奖励,就像只有当你完美骑完一圈才说好,这让机器人很难知道自己哪里做对了。要么需要工程师手工设计复杂的奖励系统,就像为每个细微动作都写出详细的评分标准,这既费时又难以推广。

  在奖励准确性测试中,他们采用了视频帧排序和任务完成判断两种方法。视频帧排序测试就像让模型观看一段机器人操作视频的打乱片段,然后要求它按照任务进展重新排序。在这项测试中,他们的模型在七个不同数据集上都达到了超过92%的准确率,显著超过了现有的基准方法。任务完成判断测试则更加直接,让模型判断机器人是否成功完成了任务。在180个真实机器人操作案例中,模型达到了92.8%的判断准确率,甚至超过了一些大型通用AI模型。

  真实世界的实验结果更加令人鼓舞。研究团队测试了八种不同的操作任务,包括插方块、捡拾放置、完成电路、整理花朵、折毛巾、搭积木、盖笔帽和拉拉链。这些任务涵盖了从精细操作到长序列任务的各种挑战。使用Dopamine-RL的机器人在所有任务上的平均成功率达到了95.2%,而传统方法只有68%左右。特别值得注意的是,系统在面对环境变化时展现出了良好的泛化能力——当测试环境中的物体、布局或背景发生变化时,性能下降幅度远小于传统方法。

搜索